es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: SCRAPY

Cuando ejecuto el comando ‘scrapy crawl Admission’, se produce un error de solicitud fuera del sitio filtrada hacia ‘www.worldomets.info’.

import scrapy class AdmissionsSpider(scrapy.Spider): name = ‘Admissions’ allowed_domains = [“www.worldometers.info”] start_urls = [‘https://www.worldometers.info/population/countries-in-asia-by-population/’] def parse(self, response): countries=response.xpath(“//td/a”) for country in countries: name=country.xpath(“.//text()”).get() links=country.xpath(“.//@href”).get() absolute_url=f”https://www.worldomets.info{links}” yield scrapy.Request(url=absolute_url) Estoy tratando de imprimir el nombre de los países pero me muestra el error Filtered offsite request to ‘www.worldomets.info’: <get https://www.worldomets.info/world-population/china-population/=””>

Como traductor de español que se especializa en documentos de tecnología de la información, es importante que se utilice correctamente el formato de codificación UTF-8 para garantizar una traducción precisa y fluida. Sin embargo, en esta situación en la que los caracteres desconocidos “سقوط” parecen ser producto de un error en la codificación, no es posible proporcionar una traducción fidedigna. Por favor, asegúrese de utilizar la codificación UTF-8 para que se puedan realizar traducciones adecuadas.

Estoy tratando de extraer información de un sitio web que no está en inglés (https://arzdigital.com/). Aquí está mi código araña. El problema es que, aunque al principio importo “urllib.parse” y en el archivo settings.py escribí FEED_EXPORT_ENCODING=’utf-8′ la araña no codifica correctamente (la salida es así: “سÙد زبر هسÛÙ†ÛŒ Ùنارو مالاïڇÛاÛÙ† . . . Read more