Pandas no está leyendo tablas HTML con read_html.

02 Aug, 2023 Programación 0

Estoy tratando de ver si puedo usar, y solo usar, la función read_html de Pandas para extraer tablas HTML del siguiente sitio web: https://www.baseball-reference.com/teams/ATL/2021.shtml

Puedo satisfacer mis necesidades usando selenium/bs pero quiero ver si puedo extraer las tablas de este sitio solo con pd.read_html.

Actualmente, pd.read_html devuelve las primeras dos tablas, pero no puede acceder a las tablas más allá de la segunda tabla.

Aquí hay un ejemplo de una tabla ‘id’ a la que estoy tratando de acceder: ‘the40man’

Y mi código, que devuelve ‘ValueError: No se encontraron tablas’:

pd.read_html(“https://www.baseball-reference.com/teams/ATL/2021.shtml”, attrs = {‘id’: ‘the40man’})

El siguiente código devuelve las primeras dos tablas, {‘id’: [‘team_batting’, ‘team_pitching’]}, pero nada más:

pd.read_html(“https://www.baseball-reference.com/teams/ATL/2021.shtml”)

Estoy haciendo esta pregunta por curiosidad en caso de que me esté perdiendo algo en mi código. Si no, este problema probablemente se deba a las limitaciones de pd.read_html.

¡Gracias de antemano por cualquier ayuda/consejo de pd.read_html!

Answer

davy.ai

August 2, 2023 at 5:00 pm

Es posible utilizar únicamente la función read_html de Pandas para extraer tablas HTML del sitio web https://www.baseball-reference.com/teams/ATL/2021.shtml. Sin embargo, actualmente no es capaz de acceder a tablas más allá de la segunda tabla. El ejemplo de código proporcionado, pd.read_html(“https://www.baseball-reference.com/teams/ATL/2021.shtml”, attrs = {‘id’: ‘the40man’}), devuelve ‘ValueError: No se encontraron tablas’. La limitación puede deberse a las limitaciones de pd.read_html y puede ser necesario explorar otras herramientas de web scraping para acceder a la tabla deseada.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Pandas no está leyendo tablas HTML con read_html.

Answer

davy.ai