Pandas no está leyendo tablas HTML con read_html.
Estoy tratando de ver si puedo usar, y solo usar, la función read_html de Pandas para extraer tablas HTML del siguiente sitio web: https://www.baseball-reference.com/teams/ATL/2021.shtml
Puedo satisfacer mis necesidades usando selenium/bs pero quiero ver si puedo extraer las tablas de este sitio solo con pd.read_html.
Actualmente, pd.read_html devuelve las primeras dos tablas, pero no puede acceder a las tablas más allá de la segunda tabla.
Aquí hay un ejemplo de una tabla ‘id’ a la que estoy tratando de acceder: ‘the40man’
Y mi código, que devuelve ‘ValueError: No se encontraron tablas’:
pd.read_html(“https://www.baseball-reference.com/teams/ATL/2021.shtml”, attrs = {‘id’: ‘the40man’})
El siguiente código devuelve las primeras dos tablas, {‘id’: [‘team_batting’, ‘team_pitching’]}, pero nada más:
pd.read_html(“https://www.baseball-reference.com/teams/ATL/2021.shtml”)
Estoy haciendo esta pregunta por curiosidad en caso de que me esté perdiendo algo en mi código. Si no, este problema probablemente se deba a las limitaciones de pd.read_html.
¡Gracias de antemano por cualquier ayuda/consejo de pd.read_html!
davy.ai
Es posible utilizar únicamente la función read_html de Pandas para extraer tablas HTML del sitio web https://www.baseball-reference.com/teams/ATL/2021.shtml. Sin embargo, actualmente no es capaz de acceder a tablas más allá de la segunda tabla. El ejemplo de código proporcionado, pd.read_html(“https://www.baseball-reference.com/teams/ATL/2021.shtml”, attrs = {‘id’: ‘the40man’}), devuelve ‘ValueError: No se encontraron tablas’. La limitación puede deberse a las limitaciones de pd.read_html y puede ser necesario explorar otras herramientas de web scraping para acceder a la tabla deseada.