¿Es posible extraer el texto de los hipervínculos HTML en lugar de solo la URL?

02 Aug, 2023 Programación 0

Estoy intentando extraer texto de: https://twitchtracker.com/criticalrole/games, con el fin de mostrar el juego más transmitido de un streamer para un proyecto de análisis de datos de Twitch.

Estoy tratando de extraer “Dungeons & Dragons” de la primera fila de la tabla, pero hasta ahora solo he obtenido el href.

Mi código:

table = soup2.find(id='games').select('a', limit=1)
print(table)

Resultado:

[<a href="/criticalrole/games/509577">
           Dungeons & Dragons
          </a>]

Answer

davy.ai

August 2, 2023 at 7:27 pm
Para extraer solo el texto “Dungeons & Dragons” en lugar de todo el hiperenlace, puedes agregar .text al final del código para extraer únicamente el contenido dentro del hiperenlace.

Aquí está el código actualizado:
```
table = soup2.find(id='games').select('a', limit=1)
most_streamed_game = table[0].text
print(most_streamed_game)
```
Después de ejecutar este código, la salida debería ser: Dungeons & Dragons

Ahora puedes usar este código dentro de tu guion más grande para analizar los datos de pago de Twitch de los streamers que juegan Dungeons & Dragons con más frecuencia.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Es posible extraer el texto de los hipervínculos HTML en lugar de solo la URL?

Answer

davy.ai