Tag: SCRAPY
Estoy intentando crear una función simple de Scrapy que recorra un conjunto de URLs estándar y obtenga su clasificación de Alexa. El resultado que deseo es simplemente dos columnas: una que muestre la clasificación de Alexa obtenida y otra que muestre la URL que se ha analizado. Todo parece funcionar . . . Read more
import scrapy class CliffTop(scrapy.Spider): name = ‘ctop’ start_urls = [ ‘https://www.net-a-porter.com/en-in/shop/clothing/tops’ ] def parse(self, response): all_div_title= response.css(‘a::attr(href) div.ProductItem24’) mname = all_div_title.css(‘span.ProductItem24__designer::text’).extract() yield { ‘name’: mname } Actualmente, al ejecutar la araña, no obtengo ninguna salida. ¿Puede alguien decirme qué está mal con el Selector CSS? Prioridad: extraer nombres
Hola chicos, estoy tratando de extraer ingredientes de un sitio web, pero cuando ejecuto el código en la clave de ingredientes muestra solo un ingrediente y no pasa por los otros ingredientes. Gracias por su tiempo. class RecipiesSpider(scrapy.Spider): name = ‘recipies’ allowed_domains = [‘www.epicurious.com/search?content=recipe’] start_urls = [‘https://www.epicurious.com/search?content=recipe’] def parse(self, response): . . . Read more
Equipo A 13 Para seleccionar los datos analizados, actualmente uso response.css(“div.team-name span::text”).getall() Out[22]: [‘Equipo A’, ‘ 13’, ‘ : ‘, ‘3 ‘, ‘Equipo B’] Aquí, la salida es: Lo siguiente que necesito hacer es convertir la salida de texto en un entero, es decir, el array[1] y el array[3] en . . . Read more
No entiendo por qué mi spider no se ejecuta. Probé el selector CSS por separado, así que no creo que sea el método de análisis. Mensaje de seguimiento: ReactorNotRestartable: class espn_spider(scrapy.Spider): name = “fsu2021_spider” def start_requests(self): urls = “https://www.espn.com/college-football/team/_/id/52” for url in urls: yield scrapy.Request(url = url, callback = self.parse_front) . . . Read more