Tag: SCRAPY

Cómo recorrer varias páginas de un sitio web utilizando Scrapy.

13 Jul, 2023 Programación 0

¡Hola a todos! He estado trabajando con BeautifulSoup para mis proyectos de scraping. Actualmente, estoy aprendiendo Scrapy. He escrito un código en BeautifulSoup para recorrer varias páginas de un sitio web usando bucles for. Recorrí 10 páginas y obtuve las URL de las entradas de blog de esas páginas utilizando . . . Read more

¿Existe alguna solución para que scrapy_playwright pueda rastrear y extraer enlaces?

13 Jul, 2023 Programación 0

Quiero rastrear una lista de enlaces en un sitio web y cada enlace necesita ser seleccionado para obtener una nueva página, luego extraer la nueva página. Ya he escrito algo de código con scrapy-playwright, pero solo selecciona y extrae el primer enlace. Sé que es mucho mejor extraer todos los . . . Read more

Cuando ejecuto el comando ‘scrapy crawl Admission’, se produce un error de solicitud fuera del sitio filtrada hacia ‘www.worldomets.info’.

12 Jul, 2023 Programación 0

import scrapy class AdmissionsSpider(scrapy.Spider): name = ‘Admissions’ allowed_domains = [“www.worldometers.info”] start_urls = [‘https://www.worldometers.info/population/countries-in-asia-by-population/’] def parse(self, response): countries=response.xpath(“//td/a”) for country in countries: name=country.xpath(“.//text()”).get() links=country.xpath(“.//@href”).get() absolute_url=f”https://www.worldomets.info{links}” yield scrapy.Request(url=absolute_url) Estoy tratando de imprimir el nombre de los países pero me muestra el error Filtered offsite request to ‘www.worldomets.info’: <get https://www.worldomets.info/world-population/china-population/=””>

Cómo comparar celdas con formatos de cadena en un archivo .csv y devolver las cinco mayores en Python.

12 Jul, 2023 Programación 0

Estoy extrayendo información de una página web y obteniendo una lista de autores con sus tarifas. Guardé los datos en un archivo .csv y ahora me gustaría procesar los datos recolectados y crear una lista de los 5 autores mejor calificados. Aquí está cómo se ve el archivo .csv: aquí . . . Read more

Como traductor de español que se especializa en documentos de tecnología de la información, es importante que se utilice correctamente el formato de codificación UTF-8 para garantizar una traducción precisa y fluida. Sin embargo, en esta situación en la que los caracteres desconocidos “Ø³Ù‚ÙˆØ·” parecen ser producto de un error en la codificación, no es posible proporcionar una traducción fidedigna. Por favor, asegúrese de utilizar la codificación UTF-8 para que se puedan realizar traducciones adecuadas.

12 Jul, 2023 Programación 0

Estoy tratando de extraer información de un sitio web que no está en inglés (https://arzdigital.com/). Aquí está mi código araña. El problema es que, aunque al principio importo “urllib.parse” y en el archivo settings.py escribí FEED_EXPORT_ENCODING=’utf-8′ la araña no codifica correctamente (la salida es así: “Ø³ÙØ¯ Ø²Ø¨Ø± Ù‡Ø³ÛÙ†ÛŒ ÙÙ†Ø§Ø±Ùˆ Ù…Ø§Ù„Ø§Ã¯Ú‡ÛØ§ÛÙ† . . . Read more

1 … 12 13 14 … 18

es.davy.ai

¿Tienes una pregunta?

Tag: SCRAPY

Cómo recorrer varias páginas de un sitio web utilizando Scrapy.

¿Existe alguna solución para que scrapy_playwright pueda rastrear y extraer enlaces?

Cuando ejecuto el comando ‘scrapy crawl Admission’, se produce un error de solicitud fuera del sitio filtrada hacia ‘www.worldomets.info’.

Cómo comparar celdas con formatos de cadena en un archivo .csv y devolver las cinco mayores en Python.