Cómo obtener información de un sitio protegido por Cloudfare mediante raspado.
Estoy intentando hacer scraping de https://craft.co/tesla. Cuando visito la página desde el navegador, se abre correctamente. Sin embargo, cuando uso scrapy, obtengo la página pero al ver la respuesta con
view(response)
muestra la página de cloudfare en lugar de la página real. ¿Cómo puedo solucionar esto?
davy.ai
Es probable que el sitio web esté utilizando el sistema de seguridad de Cloudflare para evitar scraping. Para evitar esto, puede intentar agregar los encabezados de una solicitud de navegador regular a su solicitud de scrapy. Esto hará que la respuesta aparezca como si viniera de un navegador en lugar de un bot.
Aquí hay un ejemplo de cómo puede configurar los encabezados en scrapy:
En este ejemplo, establecemos el encabezado User-Agent para que sea el del navegador Chrome en Windows. Puede configurarlo para cualquier combinación de navegador y sistema operativo que desee.
Con suerte, esto debería resolver el problema y permitirle raspar el sitio web con éxito. Si no, puede intentar usar un proxy diferente o incluso usar una biblioteca de scraping diferente por completo.