Tag: SCRAPY
Me gustaría obtener el href del siguiente html: <a class="AirQuality–detailsButton–DBdLS Button–primary–1UQTP" href="/en-IN/forecast/air-quality/l/bf01d09009561812f3f95abece23d16e123d8c08fd0b8ec7ffc9215c0154913c" target="_self">Ver detalles</a> donde el href se extrae en función de la clase class="AirQuality–detailsButton–DBdLS Button–primary–1UQTP" del elemento a. He intentado lo siguiente pero no devuelve nada. response.css('a.AirQuality–detailsButton–DBdLS Button–primary–1UQTP::attr(href)').get() El html completo se puede obtener a través de scrapy con . . . Read more
Sé cómo obtener el resultado de yield y guardarlo en un archivo CSV o JSON, pero ¿cómo lo guardo en una variable global o tal vez en una variable local que puedo pasar como argumento de función? Soy muy nuevo en scrapy. Aquí está mi código: ““ import scrapy from . . . Read more
Estoy tratando de obtener el texto interno de un elemento. Sin embargo, el elemento se presenta de tal manera, con un espacio delante de la etiqueta interna y el texto que quiero después de la etiqueta interna: html Hello! Cuando intento obtener el texto interno utilizando el siguiente selector de . . . Read more
He creado una araña para recopilar nombres de usuario en scratch.mit.edu. Logra navegar con éxito a las páginas de perfil, pero no ejecuta la función de devolución de llamada. Creo que podría tener algo que ver con la forma en que escribo mi atributo allow. Mi código: import scrapy from . . . Read more
Utilizo Scrapy 2.5.1. En scrapy shell: fetch(url) response.xpath(‘//a[@data-role=”link”]/@data-href’).getall() me da algún resultado, pero en una clase CrawlSpider con Rules y LinkExtractor: class AutoCrawlSpider(CrawlSpider): name = ‘auto_crawl’ allowed_domains = [‘‘] start_urls = [‘‘] rules = [ Rule(LinkExtractor(restrict_xpaths=’//a[@data-role=”link”]/data-href’), callback=’parse’, follow=True) ] def parse(self, response, **kwargs): print(f’Crawling {response.url} con HTTP {response.status}’) Request(url=response.url) pass . . . Read more