Tag: SCRAPY
Usé Scrapy en mi proyecto y quiero llamar a mi spider con una URL desde una vista de DRF (Django Rest Framework), ¿cuál es la mejor manera? Una de las formas que utilicé es: from uuid import uuid4 from django.core.cache import cache from urllib.parse import urlparse from django.core.validators import URLValidator . . . Read more
Mi código: import scrapy class FlightsSpider(scrapy.Spider): name = "flights" start_urls = [ 'https://www.fly540.com/flights/nairobi-to-mombasa?isoneway=0"&"currency=KES"&"depairportcode=NBO"&"arrvairportcode=MBA"&"date_from=Fri%2C+10+Dec+2021"&"date_to=Fri%2C+17+Dec+2021"&"adult_no=1"&"children_no=0"&"infant_no=0"&"searchFlight="&"change_flight=' ] def parse(self, response): for flight in response.css('div.fly5-flights.fly5-depart.th div.fly5-results table.table tr'): yield { 'departureAirport': flight.css('td span.flfrom::text')[0].get() } Cuando uso scrapy shell con el mismo enlace, esto es lo que obtengo: >>> for flight in response.css('.fly5-flights.fly5-depart.th .fly5-results table.table . . . Read more
Estoy intentando hacer scraping de https://craft.co/tesla. Cuando visito la página desde el navegador, se abre correctamente. Sin embargo, cuando uso scrapy, obtengo la página pero al ver la respuesta con view(response) muestra la página de cloudfare en lugar de la página real. ¿Cómo puedo solucionar esto?
La intención de este crawler es devolver todos los textos de una página junto con los enlaces, y estamos tratando de almacenar los datos extraídos en archivos json, pero los archivos json vienen con salidas que contienen redundancias como los \n. Aquí está el araña de scrapy: import itemloaders from . . . Read more
Hola, Estoy trabajando en un scraper para esta página: https://www.dirk.nl/ Estoy tratando de obtener en scrapy shell la clase “row-wrapper” div. Si ingreso response.css('row-wrapper'), me da algunos resultados aleatorios, creo que hay un sistema anti scraping involucrado. Necesito los hrefs de esta clase. ¿Alguna opinión sobre cómo puedo avanzar?