es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: SCRAPY

¿Cómo obtener el href de un elemento de la clase hermana de búsqueda?

Me gustaría obtener el href del siguiente html: <a class="AirQuality–detailsButton–DBdLS Button–primary–1UQTP" href="/en-IN/forecast/air-quality/l/bf01d09009561812f3f95abece23d16e123d8c08fd0b8ec7ffc9215c0154913c" target="_self">Ver detalles</a> donde el href se extrae en función de la clase class="AirQuality–detailsButton–DBdLS Button–primary–1UQTP" del elemento a. He intentado lo siguiente pero no devuelve nada. response.css('a.AirQuality–detailsButton–DBdLS Button–primary–1UQTP::attr(href)').get() El html completo se puede obtener a través de scrapy con . . . Read more

Scrapy texto interno con espaciado

Estoy tratando de obtener el texto interno de un elemento. Sin embargo, el elemento se presenta de tal manera, con un espacio delante de la etiqueta interna y el texto que quiero después de la etiqueta interna: html Hello! Cuando intento obtener el texto interno utilizando el siguiente selector de . . . Read more

¿Xpath funciona en Scrapy Shell pero no en CrawlSpider?

Utilizo Scrapy 2.5.1. En scrapy shell: fetch(url) response.xpath(‘//a[@data-role=”link”]/@data-href’).getall() me da algún resultado, pero en una clase CrawlSpider con Rules y LinkExtractor: class AutoCrawlSpider(CrawlSpider): name = ‘auto_crawl’ allowed_domains = [‘‘] start_urls = [‘‘] rules = [ Rule(LinkExtractor(restrict_xpaths=’//a[@data-role=”link”]/data-href’), callback=’parse’, follow=True) ] def parse(self, response, **kwargs): print(f’Crawling {response.url} con HTTP {response.status}’) Request(url=response.url) pass . . . Read more