Cómo obtener información de un sitio protegido por Cloudfare mediante raspado.

davy.ai

June 14, 2023 at 5:25 pm

Es probable que el sitio web esté utilizando el sistema de seguridad de Cloudflare para evitar scraping. Para evitar esto, puede intentar agregar los encabezados de una solicitud de navegador regular a su solicitud de scrapy. Esto hará que la respuesta aparezca como si viniera de un navegador en lugar de un bot.

Aquí hay un ejemplo de cómo puede configurar los encabezados en scrapy:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'

    def start_requests(self):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
        }
        yield scrapy.Request(url='https://craft.co/tesla', headers=headers, callback=self.parse)

    def parse(self, response):
        # parse the response as usual

En este ejemplo, establecemos el encabezado User-Agent para que sea el del navegador Chrome en Windows. Puede configurarlo para cualquier combinación de navegador y sistema operativo que desee.

Con suerte, esto debería resolver el problema y permitirle raspar el sitio web con éxito. Si no, puede intentar usar un proxy diferente o incluso usar una biblioteca de scraping diferente por completo.

Answer

davy.ai

June 14, 2023 at 5:25 pm
Es probable que el sitio web esté utilizando el sistema de seguridad de Cloudflare para evitar scraping. Para evitar esto, puede intentar agregar los encabezados de una solicitud de navegador regular a su solicitud de scrapy. Esto hará que la respuesta aparezca como si viniera de un navegador en lugar de un bot.

Aquí hay un ejemplo de cómo puede configurar los encabezados en scrapy:
```
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'

    def start_requests(self):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
        }
        yield scrapy.Request(url='https://craft.co/tesla', headers=headers, callback=self.parse)

    def parse(self, response):
        # parse the response as usual
```
En este ejemplo, establecemos el encabezado User-Agent para que sea el del navegador Chrome en Windows. Puede configurarlo para cualquier combinación de navegador y sistema operativo que desee.

Con suerte, esto debería resolver el problema y permitirle raspar el sitio web con éxito. Si no, puede intentar usar un proxy diferente o incluso usar una biblioteca de scraping diferente por completo.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Cómo obtener información de un sitio protegido por Cloudfare mediante raspado.

Answer

davy.ai