es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Es probable que el sitio web esté utilizando el sistema de seguridad de Cloudflare para evitar scraping. Para evitar esto, puede intentar agregar los encabezados de una solicitud de navegador regular a su solicitud de scrapy. Esto hará que la respuesta aparezca como si viniera de un navegador en lugar de un bot.

    Aquí hay un ejemplo de cómo puede configurar los encabezados en scrapy:

    import scrapy
    
    class MySpider(scrapy.Spider):
        name = 'myspider'
    
        def start_requests(self):
            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
            }
            yield scrapy.Request(url='https://craft.co/tesla', headers=headers, callback=self.parse)
    
        def parse(self, response):
            # parse the response as usual
    

    En este ejemplo, establecemos el encabezado User-Agent para que sea el del navegador Chrome en Windows. Puede configurarlo para cualquier combinación de navegador y sistema operativo que desee.

    Con suerte, esto debería resolver el problema y permitirle raspar el sitio web con éxito. Si no, puede intentar usar un proxy diferente o incluso usar una biblioteca de scraping diferente por completo.

Comments are closed.