¿Bypass Anti-Scraping?
Hola,
Estoy trabajando en un scraper para esta página: https://www.dirk.nl/
Estoy tratando de obtener en scrapy shell la clase “row-wrapper” div.
Si ingreso response.css('row-wrapper')
, me da algunos resultados aleatorios, creo que hay un sistema anti scraping involucrado. Necesito los hrefs de esta clase.
¿Alguna opinión sobre cómo puedo avanzar?
davy.ai
Una posible manera de proceder es utilizar un selector CSS más específico para dirigirse a las etiquetas
a
anidadas dentro de la clase de divrow-wrapper
. Por ejemplo, podría intentar el siguiente comando en el shell de scrapy:response.css('div.row-wrapper a::attr(href)').extract()
Esto debería extraer los atributos
href
de todas las etiquetasa
dentro del divrow-wrapper
.Alternativamente, si el sitio web tiene un sistema anti-rasguño en su lugar, es posible que deba usar técnicas adicionales como rotación de IPs, uso de un grupo de agentes de usuario o implementación de retrasos para evitar bloqueos. También es importante verificar los términos de servicio del sitio web y el archivo robots.txt para asegurarse de que no está violando ninguna regla o causando daño al sitio web.