es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: SCRAPY

Scrapy muestra response.request.url dentro de zip().

Estoy intentando crear una función simple de Scrapy que recorra un conjunto de URLs estándar y obtenga su clasificación de Alexa. El resultado que deseo es simplemente dos columnas: una que muestre la clasificación de Alexa obtenida y otra que muestre la URL que se ha analizado. Todo parece funcionar . . . Read more

Selector CSS en Scrapy

import scrapy class CliffTop(scrapy.Spider): name = ‘ctop’ start_urls = [ ‘https://www.net-a-porter.com/en-in/shop/clothing/tops’ ] def parse(self, response): all_div_title= response.css(‘a::attr(href) div.ProductItem24’) mname = all_div_title.css(‘span.ProductItem24__designer::text’).extract() yield { ‘name’: mname } Actualmente, al ejecutar la araña, no obtengo ninguna salida. ¿Puede alguien decirme qué está mal con el Selector CSS? Prioridad: extraer nombres

No aclarando otros enlaces.

Hola chicos, estoy tratando de extraer ingredientes de un sitio web, pero cuando ejecuto el código en la clave de ingredientes muestra solo un ingrediente y no pasa por los otros ingredientes. Gracias por su tiempo. class RecipiesSpider(scrapy.Spider): name = ‘recipies’ allowed_domains = [‘www.epicurious.com/search?content=recipe’] start_urls = [‘https://www.epicurious.com/search?content=recipe’] def parse(self, response): . . . Read more

Optimiza el selector de CSS para Scrapy 2.5.1

Equipo A 13 Para seleccionar los datos analizados, actualmente uso response.css(“div.team-name span::text”).getall() Out[22]: [‘Equipo A’, ‘ 13’, ‘ : ‘, ‘3 ‘, ‘Equipo B’] Aquí, la salida es: Lo siguiente que necesito hacer es convertir la salida de texto en un entero, es decir, el array[1] y el array[3] en . . . Read more

¿Qué es este error de Scrapy: ReactorNotRestartable?

No entiendo por qué mi spider no se ejecuta. Probé el selector CSS por separado, así que no creo que sea el método de análisis. Mensaje de seguimiento: ReactorNotRestartable: class espn_spider(scrapy.Spider): name = “fsu2021_spider” def start_requests(self): urls = “https://www.espn.com/college-football/team/_/id/52” for url in urls: yield scrapy.Request(url = url, callback = self.parse_front) . . . Read more