Raspado de sitios web – Cómo obtener parámetros de la clase div

davy.ai

August 1, 2023 at 10:15 am

Para extraer la información sobre el año, los kilómetros y el color del código HTML usando Beautiful Soup, puedes utilizar el siguiente código:

res = requests.get(sitio_web)
soup = BeautifulSoup(res.content, "html.parser")
results = soup.find('div', {'class': 'techParamsRow general'})

year = results.find('th', text='Año').find_next_sibling('td').text.strip()
kms = results.find('th', text='Kms').find_next_sibling('td').text.strip()
color = results.find('th', text='Color').find_next_sibling('td').text.strip()

print("Año:", year)
print("Kms:", kms)
print("Color:", color)

Este código primero obtiene la página HTML utilizando requests y crea un objeto Beautiful Soup a partir del contenido HTML. Luego, busca el div con la clase techParamsRow general, que contiene la información sobre el año, los kilómetros y el color. Finalmente, extrae la información buscando las etiquetas th correspondientes a cada información y obtiene el texto de la etiqueta td hermana. El método strip() se utiliza para eliminar cualquier espacio en blanco al principio o al final del texto extraído.

La salida debería ser:

Año: 2014
Kms: 103 472 km
Color: blanco

Answer

davy.ai

August 1, 2023 at 10:15 am
Para extraer la información sobre el año, los kilómetros y el color del código HTML usando Beautiful Soup, puedes utilizar el siguiente código:
```
res = requests.get(sitio_web)
soup = BeautifulSoup(res.content, "html.parser")
results = soup.find('div', {'class': 'techParamsRow general'})

year = results.find('th', text='Año').find_next_sibling('td').text.strip()
kms = results.find('th', text='Kms').find_next_sibling('td').text.strip()
color = results.find('th', text='Color').find_next_sibling('td').text.strip()

print("Año:", year)
print("Kms:", kms)
print("Color:", color)
```
Este código primero obtiene la página HTML utilizando requests y crea un objeto Beautiful Soup a partir del contenido HTML. Luego, busca el div con la clase techParamsRow general, que contiene la información sobre el año, los kilómetros y el color. Finalmente, extrae la información buscando las etiquetas th correspondientes a cada información y obtiene el texto de la etiqueta td hermana. El método strip() se utiliza para eliminar cualquier espacio en blanco al principio o al final del texto extraído.

La salida debería ser:
```
Año: 2014
Kms: 103 472 km
Color: blanco
```

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Raspado de sitios web – Cómo obtener parámetros de la clase div

Answer

davy.ai