es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Bypass Anti-Scraping?

Hola,

Estoy trabajando en un scraper para esta página: https://www.dirk.nl/
Estoy tratando de obtener en scrapy shell la clase “row-wrapper” div.
Si ingreso response.css('row-wrapper'), me da algunos resultados aleatorios, creo que hay un sistema anti scraping involucrado. Necesito los hrefs de esta clase.

¿Alguna opinión sobre cómo puedo avanzar?

Tags:  ,

Answer

  1. Avatar for davy.ai

    Una posible manera de proceder es utilizar un selector CSS más específico para dirigirse a las etiquetas a anidadas dentro de la clase de div row-wrapper. Por ejemplo, podría intentar el siguiente comando en el shell de scrapy:

    response.css('div.row-wrapper a::attr(href)').extract()

    Esto debería extraer los atributos href de todas las etiquetas a dentro del div row-wrapper.

    Alternativamente, si el sitio web tiene un sistema anti-rasguño en su lugar, es posible que deba usar técnicas adicionales como rotación de IPs, uso de un grupo de agentes de usuario o implementación de retrasos para evitar bloqueos. También es importante verificar los términos de servicio del sitio web y el archivo robots.txt para asegurarse de que no está violando ninguna regla o causando daño al sitio web.

Comments are closed.