Tag: SCRAPY

¿Cómo obtener el href de un elemento de la clase hermana de búsqueda?

28 May, 2023 Programación 0

Me gustaría obtener el href del siguiente html: <a class="AirQuality–detailsButton–DBdLS Button–primary–1UQTP" href="/en-IN/forecast/air-quality/l/bf01d09009561812f3f95abece23d16e123d8c08fd0b8ec7ffc9215c0154913c" target="_self">Ver detalles</a> donde el href se extrae en función de la clase class="AirQuality–detailsButton–DBdLS Button–primary–1UQTP" del elemento a. He intentado lo siguiente pero no devuelve nada. response.css('a.AirQuality–detailsButton–DBdLS Button–primary–1UQTP::attr(href)').get() El html completo se puede obtener a través de scrapy con . . . Read more

¿Cómo almacenar los resultados de un yield en una araña en una variable global?

28 May, 2023 Programación 0

Sé cómo obtener el resultado de yield y guardarlo en un archivo CSV o JSON, pero ¿cómo lo guardo en una variable global o tal vez en una variable local que puedo pasar como argumento de función? Soy muy nuevo en scrapy. Aquí está mi código: ““ import scrapy from . . . Read more

Scrapy texto interno con espaciado

26 May, 2023 Programación 0

Estoy tratando de obtener el texto interno de un elemento. Sin embargo, el elemento se presenta de tal manera, con un espacio delante de la etiqueta interna y el texto que quiero después de la etiqueta interna: html Hello! Cuando intento obtener el texto interno utilizando el siguiente selector de . . . Read more

Scrapy – CrawlSpider no está ejecutando mi función de retorno.

25 May, 2023 Programación 0

He creado una araña para recopilar nombres de usuario en scratch.mit.edu. Logra navegar con éxito a las páginas de perfil, pero no ejecuta la función de devolución de llamada. Creo que podría tener algo que ver con la forma en que escribo mi atributo allow. Mi código: import scrapy from . . . Read more

¿Xpath funciona en Scrapy Shell pero no en CrawlSpider?

23 May, 2023 Programación 0

Utilizo Scrapy 2.5.1. En scrapy shell: fetch(url) response.xpath(‘//a[@data-role=”link”]/@data-href’).getall() me da algún resultado, pero en una clase CrawlSpider con Rules y LinkExtractor: class AutoCrawlSpider(CrawlSpider): name = ‘auto_crawl’ allowed_domains = [‘‘] start_urls = [‘‘] rules = [ Rule(LinkExtractor(restrict_xpaths=’//a[@data-role=”link”]/data-href’), callback=’parse’, follow=True) ] def parse(self, response, **kwargs): print(f’Crawling {response.url} con HTTP {response.status}’) Request(url=response.url) pass . . . Read more

1 … 17 18

es.davy.ai

¿Tienes una pregunta?