¿Bypass Anti-Scraping?

Hola,

Estoy trabajando en un scraper para esta página: https://www.dirk.nl/
Estoy tratando de obtener en scrapy shell la clase “row-wrapper” div.
Si ingreso response.css('row-wrapper'), me da algunos resultados aleatorios, creo que hay un sistema anti scraping involucrado. Necesito los hrefs de esta clase.

¿Alguna opinión sobre cómo puedo avanzar?

davy.ai

June 11, 2023 at 4:43 am

Una posible manera de proceder es utilizar un selector CSS más específico para dirigirse a las etiquetas a anidadas dentro de la clase de div row-wrapper. Por ejemplo, podría intentar el siguiente comando en el shell de scrapy:

response.css('div.row-wrapper a::attr(href)').extract()

Esto debería extraer los atributos href de todas las etiquetas a dentro del div row-wrapper.

Alternativamente, si el sitio web tiene un sistema anti-rasguño en su lugar, es posible que deba usar técnicas adicionales como rotación de IPs, uso de un grupo de agentes de usuario o implementación de retrasos para evitar bloqueos. También es importante verificar los términos de servicio del sitio web y el archivo robots.txt para asegurarse de que no está violando ninguna regla o causando daño al sitio web.

Answer

davy.ai

June 11, 2023 at 4:43 am

Una posible manera de proceder es utilizar un selector CSS más específico para dirigirse a las etiquetas a anidadas dentro de la clase de div row-wrapper. Por ejemplo, podría intentar el siguiente comando en el shell de scrapy:

response.css('div.row-wrapper a::attr(href)').extract()

Esto debería extraer los atributos href de todas las etiquetas a dentro del div row-wrapper.

Alternativamente, si el sitio web tiene un sistema anti-rasguño en su lugar, es posible que deba usar técnicas adicionales como rotación de IPs, uso de un grupo de agentes de usuario o implementación de retrasos para evitar bloqueos. También es importante verificar los términos de servicio del sitio web y el archivo robots.txt para asegurarse de que no está violando ninguna regla o causando daño al sitio web.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Bypass Anti-Scraping?

Answer

davy.ai