es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: SCRAPY

Ejecuta el rastreador Scrapy desde la vista DRF.

Usé Scrapy en mi proyecto y quiero llamar a mi spider con una URL desde una vista de DRF (Django Rest Framework), ¿cuál es la mejor manera? Una de las formas que utilicé es: from uuid import uuid4 from django.core.cache import cache from urllib.parse import urlparse from django.core.validators import URLValidator . . . Read more

La terminal de Scrapy devuelve valores adecuados pero la araña no devuelve nada.

Mi código: import scrapy class FlightsSpider(scrapy.Spider): name = "flights" start_urls = [ 'https://www.fly540.com/flights/nairobi-to-mombasa?isoneway=0"&"currency=KES"&"depairportcode=NBO"&"arrvairportcode=MBA"&"date_from=Fri%2C+10+Dec+2021"&"date_to=Fri%2C+17+Dec+2021"&"adult_no=1"&"children_no=0"&"infant_no=0"&"searchFlight="&"change_flight=' ] def parse(self, response): for flight in response.css('div.fly5-flights.fly5-depart.th div.fly5-results table.table tr'): yield { 'departureAirport': flight.css('td span.flfrom::text')[0].get() } Cuando uso scrapy shell con el mismo enlace, esto es lo que obtengo: >>> for flight in response.css('.fly5-flights.fly5-depart.th .fly5-results table.table . . . Read more

¿Bypass Anti-Scraping?

Hola, Estoy trabajando en un scraper para esta página: https://www.dirk.nl/ Estoy tratando de obtener en scrapy shell la clase “row-wrapper” div. Si ingreso response.css('row-wrapper'), me da algunos resultados aleatorios, creo que hay un sistema anti scraping involucrado. Necesito los hrefs de esta clase. ¿Alguna opinión sobre cómo puedo avanzar?