Tag: SCRAPY

Ejecuta el rastreador Scrapy desde la vista DRF.

16 Jun, 2023 Programación 0

Usé Scrapy en mi proyecto y quiero llamar a mi spider con una URL desde una vista de DRF (Django Rest Framework), ¿cuál es la mejor manera? Una de las formas que utilicé es: from uuid import uuid4 from django.core.cache import cache from urllib.parse import urlparse from django.core.validators import URLValidator . . . Read more

La terminal de Scrapy devuelve valores adecuados pero la araña no devuelve nada.

15 Jun, 2023 Programación 0

Mi código: import scrapy class FlightsSpider(scrapy.Spider): name = "flights" start_urls = [ 'https://www.fly540.com/flights/nairobi-to-mombasa?isoneway=0"&"currency=KES"&"depairportcode=NBO"&"arrvairportcode=MBA"&"date_from=Fri%2C+10+Dec+2021"&"date_to=Fri%2C+17+Dec+2021"&"adult_no=1"&"children_no=0"&"infant_no=0"&"searchFlight="&"change_flight=' ] def parse(self, response): for flight in response.css('div.fly5-flights.fly5-depart.th div.fly5-results table.table tr'): yield { 'departureAirport': flight.css('td span.flfrom::text')[0].get() } Cuando uso scrapy shell con el mismo enlace, esto es lo que obtengo: >>> for flight in response.css('.fly5-flights.fly5-depart.th .fly5-results table.table . . . Read more

Cómo obtener información de un sitio protegido por Cloudfare mediante raspado.

14 Jun, 2023 Programación 0

Estoy intentando hacer scraping de https://craft.co/tesla. Cuando visito la página desde el navegador, se abre correctamente. Sin embargo, cuando uso scrapy, obtengo la página pero al ver la respuesta con view(response) muestra la página de cloudfare en lugar de la página real. ¿Cómo puedo solucionar esto?

Rastreador que devuelve resultados rastreados con \n’s, ¿cómo deshacerse de ellos?

11 Jun, 2023 Programación 0

La intención de este crawler es devolver todos los textos de una página junto con los enlaces, y estamos tratando de almacenar los datos extraídos en archivos json, pero los archivos json vienen con salidas que contienen redundancias como los \n. Aquí está el araña de scrapy: import itemloaders from . . . Read more

¿Bypass Anti-Scraping?

11 Jun, 2023 Programación 0

Hola, Estoy trabajando en un scraper para esta página: https://www.dirk.nl/ Estoy tratando de obtener en scrapy shell la clase “row-wrapper” div. Si ingreso response.css('row-wrapper'), me da algunos resultados aleatorios, creo que hay un sistema anti scraping involucrado. Necesito los hrefs de esta clase. ¿Alguna opinión sobre cómo puedo avanzar?

1 … 14 15 16 … 18

es.davy.ai

¿Tienes una pregunta?