es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: SCRAPY

Amplíe el valor de configuración de scrapy por araña.

Supongamos que queremos agregar un pipeline de elementos específico para una araña en particular. Con el fin de cumplir con el principio DRY, solo quiero acceder a los pipelines actuales desde la configuración, agregar mi pipeline específico y luego guardar el resultado en la configuración para la araña. No podemos . . . Read more

Recorre una función y almacénala como lista.

Tengo la siguiente función que hace clic en una casilla de verificación con splash: local get_dimensions = splash:jsfunc([[ function () { for i=1, 5 do var rect = document.querySelector(string.format(‘checkbox[number=”%d”]’, i)) .getClientRects()[0]; return {[rect.left]: rect.top}; } }] ) Sin embargo, no puedo almacenar una lista del bucle en una única variable . . . Read more

Cómo extraer datos de tablas dinámicas (página web del Banco Mundial)

Estaba intentando extraer información del marco de resultados para varios proyectos en el sitio web del Banco Mundial. La biblioteca que estoy utilizando es scrapy, pero también estoy abierto a usar selenium. Enlace: (https://projects.worldbank.org/en/projects-operations/project-detail/P153012) El problema al que me enfrento es: Las tablas se generan dinámicamente y en algunos proyectos . . . Read more

Ejecutar CrawlerProcess en Scrapy con Splash

Tengo un archivo scrapy+splash para extraer datos. Ahora quiero ejecutar mi archivo scrapy mediante un script, por lo que utilizo CrawlerProcess. Mi archivo es así: import scrapy from scrapy_splash import SplashRequest from scrapy.crawler import CrawlerProcess class ProvinceSpider(scrapy.Spider): name = ‘province’ <pre><code>def start_requests(self): url = &quot;https://e.vnexpress.net/covid-19/vaccine" yield SplashRequest(url=url,callback=self.parse) def parse(self, response): . . . Read more