es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Es posible extraer el texto de los hipervínculos HTML en lugar de solo la URL?

Estoy intentando extraer texto de: https://twitchtracker.com/criticalrole/games, con el fin de mostrar el juego más transmitido de un streamer para un proyecto de análisis de datos de Twitch.

Estoy tratando de extraer “Dungeons & Dragons” de la primera fila de la tabla, pero hasta ahora solo he obtenido el href.

Mi código:

table = soup2.find(id='games').select('a', limit=1)
print(table)

Resultado:

[<a href="/criticalrole/games/509577">
           Dungeons & Dragons
          </a>]
Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Para extraer solo el texto “Dungeons & Dragons” en lugar de todo el hiperenlace, puedes agregar .text al final del código para extraer únicamente el contenido dentro del hiperenlace.

    Aquí está el código actualizado:

    table = soup2.find(id='games').select('a', limit=1)
    most_streamed_game = table[0].text
    print(most_streamed_game)
    

    Después de ejecutar este código, la salida debería ser: Dungeons & Dragons

    Ahora puedes usar este código dentro de tu guion más grande para analizar los datos de pago de Twitch de los streamers que juegan Dungeons & Dragons con más frecuencia.

Comments are closed.