Tag: BEAUTIFULSOUP
Quiero poner todos los resultados de una solicitud de BeautifulSoup en un diccionario en Python con la clave para todos ellos como “https”. Mi código actual se ve así: soup = BeautifulSoup(request.content, "lxml").find_all("td", class_="new"); for soup in soup: info = {}; info["https"] = soup.text; Pero si lo ejecuto y hago . . . Read more
Estoy usando beautifulsoup para eliminar un elemento del documento xml. Está eliminando la etiqueta requerida pero también está eliminando otra información del documento xml que no está relacionada con ese elemento. ¿Cómo detener esto? Código para reproducir: import requests from bs4 import BeautifulSoup text_file = open('C:\Ashok\sample.xml', 'r') s = . . . Read more
Estoy intentando obtener los atributos href de una tabla en esta página web. Tengo este código para obtener todos los enlaces, pero quiero filtrar para acceder solo al href para ‘Automaticas’ no para ‘Manuales’ # Obtener URL url = 'http://meteo.navarra.es/estaciones/descargardatos.cfm' request = urllib2.Request(url) request.add_header('Accept-Encoding', 'utf-8') # La respuesta tiene una . . . Read more
Estoy intentando obtener todas las URL de imagen de todos los libros en esta página https://www.nb.co.za/en/books/0-6-years con Beautiful Soup. Este es mi código: ““ from bs4 import BeautifulSoup import requests baseurl = “https://www.nb.co.za/” productlinks = [] r = requests.get(f’https://www.nb.co.za/en/books/0-6-years’) soup = BeautifulSoup(r.content, ‘lxml’) productlist = soup.find_all(‘div’, class_=”book-slider-frame”) def my_filter(tag): return . . . Read more
Quiero ejecutar un proceso de Python que involucre web scraping usando beautifulsoup 24/7 en algunos sitios web .org. Funciona sin problemas en la mayoría de los sitios web, sin embargo, para algunas excepciones raras, hay un pico en la red, como se puede ver en la imagen a continuación. El . . . Read more