Tag: SCRAPY
Estoy probando para ver si puedo hacer scraping a un sitio web utilizando scrapy. Recibo respuesta del sitio, pero no puedo acceder a los elementos o datos que quiero. Mi selector es correcto y no creo que haya ningún error en los comandos, aunque soy principiante en scrapy. Quiero obtener . . . Read more
Estoy intentando usar CrawlerRunner para ejecutar una araña utilizando Scrapy de la siguiente manera: a_crawler = CrawlerRunner(settings) @defer.inlineCallbacks def crawl(): CódigoQueGeneraExcepción() print(“Iniciando araña”) yield a_crawler.crawl(MySpider) reactor.stop() crawl() reactor.run() Extrañamente, la excepción generada por la primera línea de la función crawl no se imprime, no sucede nada y la aplicación se . . . Read more
Estoy teniendo problemas para extraer todos los pies de página de las tablas en una URL (“https://www.baseball-reference.com/players/a/aardsda01.shtml”) utilizando Scrapy en Python 3.7. Puedo ver la primera tabla (id=pitching_standard), pero otras tablas como batting_standard y standard_fielding no aparecen en la respuesta. A continuación se muestra el código: class BaseballRefSpider(scrapy.Spider): name = . . . Read more
Estoy tratando de extraer información de un sitio web que devuelve HTTP403 si JavaScript no está habilitado. La metodología que estoy intentando implementar es la siguiente: En el método “parse”, el controlador de Selenium obtiene la URL de “response.requets.url” y accede a la página. Pero el problema que estoy enfrentando . . . Read more
El error que recibo es ‘el índice de la tupla está fuera de rango’. Estoy muy confundido sobre qué está causando este problema. El código de Python se ejecuta correctamente, solo tengo un error al compilarlo en PyInstaller. ¡Agradezco tu ayuda! Captura de pantalla: Enlace a la captura de pantalla