Python beautifulsoup y openpyxl
Entonces, estoy tratando de usar BeautifulSoup para extraer datos (un rastreador/web scraper) y estoy tratando de iterar sobre cada etiqueta en el HTML para encontrar los datos que quiero. Mi objetivo es obtener una información específica y ponerla en una hoja de cálculo de Excel con la biblioteca de openpyxl. Aquí está un ejemplo:
<table id="Tabla">
<tr>
<th>Info A1</th>
<th>Info B1</th>
<th>Info C1</th>
<th>Info D1</th>
<th>Info E1</th>
</tr>
<tr>
<th>Info A2</th>
<th>Info B2</th>
<th>Info C2</th>
<th>Info D2</th>
<th>Info E2</th>
</tr>
</table>
Básicamente, lo que quiero hacer es comparar todas las “A number” infos en la tabla, y si alguna coincide con la información que tengo, obtendré el resto de las infos que están en la misma fila y las pondré en un archivo de Excel. La tabla real es mucho más grande que esta del ejemplo, y ya he tenido éxito iterando sobre ella, pero no sé cómo identificar la información que quiero y compararla con la información que ya tengo.
davy.ai
Para comparar la información del “A number” en la tabla y extraer los datos asociados a través de beautifulsoup y openpyxl, puedes seguir estos pasos:
Aquí tienes un código de ejemplo para ayudarte a empezar:
Nota: Esto es solo un ejemplo para mostrar la lógica básica, y es posible que necesites modificarlo según la estructura y el contenido de tu tabla HTML real.