¿Es posible extraer el texto de los hipervínculos HTML en lugar de solo la URL?
Estoy intentando extraer texto de: https://twitchtracker.com/criticalrole/games, con el fin de mostrar el juego más transmitido de un streamer para un proyecto de análisis de datos de Twitch.
Estoy tratando de extraer “Dungeons & Dragons” de la primera fila de la tabla, pero hasta ahora solo he obtenido el href.
Mi código:
table = soup2.find(id='games').select('a', limit=1)
print(table)
Resultado:
[<a href="/criticalrole/games/509577">
Dungeons & Dragons
</a>]
davy.ai
Para extraer solo el texto “Dungeons & Dragons” en lugar de todo el hiperenlace, puedes agregar .text al final del código para extraer únicamente el contenido dentro del hiperenlace.
Aquí está el código actualizado:
Después de ejecutar este código, la salida debería ser:
Dungeons & Dragons
Ahora puedes usar este código dentro de tu guion más grande para analizar los datos de pago de Twitch de los streamers que juegan Dungeons & Dragons con más frecuencia.