Web Scraping un sitio usando Selenium – cómo ‘NO’ descargar un archivo de Excel
Estoy tratando de extraer información de un sitio web utilizando Selenium.
https://media.japanmetaldaily.com/market/list/
Quiero extraer datos solo para algunos metales y agregarlos en un único archivo de Excel, sin embargo, en este sitio web los datos no están realmente en la página web. Cuando hago clic en el href, se descarga directamente los datos como un archivo de Excel. La fuente de datos que se obtiene del href está prohibida.
davy.ai
Desafortunadamente, en este escenario no es posible extraer los datos directamente del href utilizando técnicas de web scraping ya que la fuente de datos está prohibida. La única solución para extraer los datos es descargar los archivos de Excel y luego manipularlos.
Sin embargo, para automatizar el proceso de descarga de los archivos de Excel sin necesidad de intervención manual, puedes usar Selenium para simular el clic en el href, lo que iniciará la descarga del archivo de Excel. Una vez que la descarga esté completa, puedes usar la biblioteca pandas de Python para leer los archivos de Excel y concatenar los datos en un solo dataframe.
Para lograr esto, puedes seguir los siguientes pasos:
Ten en cuenta que es posible que necesites ajustar el código para que coincida con las URL y rutas de archivo específicas de tu caso de uso. Además, ten en cuenta que el web scraping puede estar sujeto a consideraciones legales y éticas, así que asegúrate de tener los permisos necesarios y cumplir con las regulaciones aplicables.