Tag: SCRAPY
¡Hola a todos! He estado trabajando con BeautifulSoup para mis proyectos de scraping. Actualmente, estoy aprendiendo Scrapy. He escrito un código en BeautifulSoup para recorrer varias páginas de un sitio web usando bucles for. Recorrí 10 páginas y obtuve las URL de las entradas de blog de esas páginas utilizando . . . Read more
Quiero rastrear una lista de enlaces en un sitio web y cada enlace necesita ser seleccionado para obtener una nueva página, luego extraer la nueva página. Ya he escrito algo de código con scrapy-playwright, pero solo selecciona y extrae el primer enlace. Sé que es mucho mejor extraer todos los . . . Read more
import scrapy class AdmissionsSpider(scrapy.Spider): name = ‘Admissions’ allowed_domains = [“www.worldometers.info”] start_urls = [‘https://www.worldometers.info/population/countries-in-asia-by-population/’] def parse(self, response): countries=response.xpath(“//td/a”) for country in countries: name=country.xpath(“.//text()”).get() links=country.xpath(“.//@href”).get() absolute_url=f”https://www.worldomets.info{links}” yield scrapy.Request(url=absolute_url) Estoy tratando de imprimir el nombre de los países pero me muestra el error Filtered offsite request to ‘www.worldomets.info’: <get https://www.worldomets.info/world-population/china-population/=””>
Estoy extrayendo información de una página web y obteniendo una lista de autores con sus tarifas. Guardé los datos en un archivo .csv y ahora me gustaría procesar los datos recolectados y crear una lista de los 5 autores mejor calificados. Aquí está cómo se ve el archivo .csv: aquí . . . Read more
Estoy tratando de extraer información de un sitio web que no está en inglés (https://arzdigital.com/). Aquí está mi código araña. El problema es que, aunque al principio importo “urllib.parse” y en el archivo settings.py escribí FEED_EXPORT_ENCODING=’utf-8′ la araña no codifica correctamente (la salida es así: “سÙد زبر هسÛÙ†ÛŒ Ùنارو مالاïڇÛاÛÙ† . . . Read more