es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Pandas no está leyendo tablas HTML con read_html.

Estoy tratando de ver si puedo usar, y solo usar, la función read_html de Pandas para extraer tablas HTML del siguiente sitio web: https://www.baseball-reference.com/teams/ATL/2021.shtml

Puedo satisfacer mis necesidades usando selenium/bs pero quiero ver si puedo extraer las tablas de este sitio solo con pd.read_html.

Actualmente, pd.read_html devuelve las primeras dos tablas, pero no puede acceder a las tablas más allá de la segunda tabla.

Aquí hay un ejemplo de una tabla ‘id’ a la que estoy tratando de acceder: ‘the40man’

Y mi código, que devuelve ‘ValueError: No se encontraron tablas’:

pd.read_html(“https://www.baseball-reference.com/teams/ATL/2021.shtml”, attrs = {‘id’: ‘the40man’})

El siguiente código devuelve las primeras dos tablas, {‘id’: [‘team_batting’, ‘team_pitching’]}, pero nada más:

pd.read_html(“https://www.baseball-reference.com/teams/ATL/2021.shtml”)

Estoy haciendo esta pregunta por curiosidad en caso de que me esté perdiendo algo en mi código. Si no, este problema probablemente se deba a las limitaciones de pd.read_html.

¡Gracias de antemano por cualquier ayuda/consejo de pd.read_html!

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Es posible utilizar únicamente la función read_html de Pandas para extraer tablas HTML del sitio web https://www.baseball-reference.com/teams/ATL/2021.shtml. Sin embargo, actualmente no es capaz de acceder a tablas más allá de la segunda tabla. El ejemplo de código proporcionado, pd.read_html(“https://www.baseball-reference.com/teams/ATL/2021.shtml”, attrs = {‘id’: ‘the40man’}), devuelve ‘ValueError: No se encontraron tablas’. La limitación puede deberse a las limitaciones de pd.read_html y puede ser necesario explorar otras herramientas de web scraping para acceder a la tabla deseada.

Comments are closed.