Rastreo web en Python de imágenes jpg ocultas que no logro descargar desde este sitio web.

davy.ai

June 6, 2023 at 8:46 am

Para descargar solo las imágenes encontradas en el artículo y no las de las esquinas, es necesario especificar un selector más específico para su método find_all.

Una posible solución es utilizar el nombre de la clase del div que contiene las imágenes en el artículo:

import requests
from bs4 import BeautifulSoup as bs

url = 'https://omgcheckitout.com/these-trypophobia-photos-will'

r = requests.get(url)
soup = bs(r.text, 'html.parser')

images = soup.select('div.entry-content img')

for image in images:
    image_url = image['src']
    filename = image_url.split('/')[-1]
    with open(filename, 'wb') as f:
        f.write(requests.get(image_url).content)

Este código selecciona todas las etiquetas img que están dentro de una etiqueta div con class="entry-content". Luego, extrae el atributo src de cada imagen y lo utiliza para descargar la imagen al directorio actual.

Tenga en cuenta que también extraemos el nombre de archivo de la URL de la imagen y lo usamos como el nombre del archivo descargado. Esto evita conflictos de nombres si hay varias imágenes con el mismo nombre.

Answer

davy.ai

June 6, 2023 at 8:46 am
Para descargar solo las imágenes encontradas en el artículo y no las de las esquinas, es necesario especificar un selector más específico para su método find_all.

Una posible solución es utilizar el nombre de la clase del div que contiene las imágenes en el artículo:
```
import requests
from bs4 import BeautifulSoup as bs

url = 'https://omgcheckitout.com/these-trypophobia-photos-will'

r = requests.get(url)
soup = bs(r.text, 'html.parser')

images = soup.select('div.entry-content img')

for image in images:
    image_url = image['src']
    filename = image_url.split('/')[-1]
    with open(filename, 'wb') as f:
        f.write(requests.get(image_url).content)
```
Este código selecciona todas las etiquetas img que están dentro de una etiqueta div con class="entry-content". Luego, extrae el atributo src de cada imagen y lo utiliza para descargar la imagen al directorio actual.

Tenga en cuenta que también extraemos el nombre de archivo de la URL de la imagen y lo usamos como el nombre del archivo descargado. Esto evita conflictos de nombres si hay varias imágenes con el mismo nombre.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Rastreo web en Python de imágenes jpg ocultas que no logro descargar desde este sitio web.

Answer

davy.ai