Tag: BEAUTIFULSOUP
Estoy tratando de averiguar cómo puedo agregar varios valores a una lista correctamente. La página web que estoy rascando es un blog de comida. Quiero recuperar el título de una receta y todas las teclas de receta (sin gluten, vegana, sin lácteos, vegetariana, etc.) asociadas con esa receta específica. Puedo . . . Read more
Como dice el título, busqué en stackoverflow algunas preguntas similares, pero no pude encontrar la solución. Aquí están mis códigos r = requests.get(“http://cpaleaks.com”, headers={‘User-agent’: ‘Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0’}) c = r.content soup = BeautifulSoup(c, “html.parser”) all = soup.find_all(“div”,{“id”:”content”}) all[0].find_all(“h2”)[0].text for item in all: print(item.find_all(“h2”)[0].text) Salida 6 . . . Read more
Necesito obtener un valor de mi archivo HTML, pero tengo algunas preguntas que no se responden en el tutorial de inicio rápido de Beautiful Soup. Lo que quiero hacer es extraer un número que fue ingresado por el usuario en mi sitio web y luego usar este número en una . . . Read more
Logré raspar múltiples páginas y puedo imprimir mis resultados correctamente con: import requests from bs4 import BeautifulSoup import pandas as pd url = ‘https://www.marketresearch.com/search/results.asp?qtype=2&datepub=3&publisher=Technavio&categoryid=0&sortby=r’ def scrape_it(url): page = requests.get(url) soup = BeautifulSoup(page.text, ‘html.parser’) NextUrl = soup.find_all(class_=”standardLinkDkBlue”)[-1][‘href’] stri = soup.find_all(class_=”standardLinkDkBlue”)[-1].string html_text = requests.get(NextUrl).text reports = soup.find_all(‘tr’, class_=’SearchTableRowAlt’) for report in reports: . . . Read more
Comencé a trabajar en el scraping de contenido de un sitio web y código HTML usando Beautiful Soup. Quiero un código en Python que pueda almacenar el contenido extraído o el código HTML en tiempo real/actual. Luego, después de un intervalo de tiempo específico asignado manualmente, el código debería ejecutarse . . . Read more