Tag: WEB-SCRAPING
Estoy utilizando un script para extraer noticias de muchos sitios web utilizando newspaper3k. En lugar de ejecutarlo secuencialmente, intenté utilizar todos mis núcleos utilizando joblib.Parallel. Sin embargo, todavía lleva MUCHO tiempo (50 sitios web tardan alrededor de 20 minutos). Perfilé el script y resulta que la mayoría del tiempo (51%) . . . Read more
Con la ayuda de la comunidad he logrado desarrollar un fragmento de código que imprime la línea de una página web. Sin embargo, ahora quiero que el código imprima el fragmento de texto para varias páginas web que coinciden con un selector xpath específico. ¿Cómo se puede hacer esto? from . . . Read more
Estoy obteniendo � como salida en Python. Este es el código que estoy usando: from bs4 import BeautifulSoup import requests with open(‘list.html’, ‘r’, encoding=’cp932′, errors=’ignore’) as archivo_html: contenido = archivo_html.read() sopa = BeautifulSoup(contenido, ‘lxml’) etiquetas = sopa.find_all(‘dt’) for etiqueta in etiquetas: titulo = etiqueta.text print(etiqueta.text) Intenté utf-16 pero luego obtengo . . . Read more
Estoy tratando de imprimir la línea de un conjunto de páginas web usando selenium. Aquí está mi código hasta ahora. import selenium from selenium import webdriver as wb webD=wb.Chrome(“C:\Program Files (x86)\chromedriver.exe”) webD.get(‘https://www.flashscore.com/’) webD.maximize_window() # Para maximizar la ventana webD.implicitly_wait(2) # Espera implícita de 20 segundos webD.find_element_by_id(‘onetrust-reject-all-handler’).click() matchpages = webD.find_elements_by_class_name(‘preview-ico.icon–preview’) for . . . Read more
Estoy intentando extraer las tallas de zapatos de este calzado: https://www.mirapodo.de/tommy-hilfiger-gummistiefel-cognac-4545847.html. ¿Cómo puedo extraer el valor?