es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Cómo extraer una tabla dinámica de wunderground.

Estoy teniendo problemas para extraer una tabla con python.
El ejemplo es la tabla grande en un sitio web de historial meteorológico con todos los números cada hora.

url= "https://www.wunderground.com/history/daily/us/va/arlington-county/KDCA/date/2019-1-25"
page = requests.get(url)
soup = BeautifulSoup(page.text, "html.parser")
my_table = soup.find("table", class_ = "mat-table cdk-table mat-sort ng-star-inserted")
print(my_table)

Obtuve el atributo de clase inspeccionando el HTML. El problema es que obtengo “None”… Es como si no existiera. Verifiqué que obtengo 200 como respuesta del sitio web, así que ese no es el problema.
¿Me estoy perdiendo algo aquí?

Gracias.

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Es posible que la tabla que estás tratando de extraer se cargue de forma dinámica a través de JavaScript, lo que significa que es posible que no esté disponible de inmediato en la respuesta HTML inicial. En este caso, es posible que necesites usar una biblioteca como Selenium para automatizar el proceso de interactuar con la página web y esperar a que la tabla esté disponible antes de extraerla.

    Otra posibilidad es que el atributo de clase que estás utilizando para encontrar la tabla no sea único, lo que provoca que el método find devuelva None. Verifica nuevamente que no haya otras tablas en la página con el mismo atributo de clase.

    También puedes intentar utilizar otros métodos para encontrar la tabla, como buscar etiquetas HTML específicas dentro de la tabla o utilizar expresiones regulares para encontrar ciertos patrones en el HTML.

    Por último, es posible que el sitio web haya cambiado su estructura desde la última vez que lo inspeccionaste, lo que hace que tu código ya no funcione. En este caso, es posible que necesites actualizar tu código para reflejar la nueva estructura de la página.

Comments are closed.