es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: WEB-CRAWLER

Encuentra el mapa del sitio de newworldencyclopedia.org.

No tengo suerte encontrando el mapa del sitio de https://www.newworldencyclopedia.org. No está aquí: https://www.newworldencyclopedia.org/robots.txt He probado estos: – https://www.newworldencyclopedia.org/sitemap.xml – https://www.newworldencyclopedia.org/sitemap.txt – https://www.newworldencyclopedia.org/sitemap.php – https://www.newworldencyclopedia.org/sitemap.xml.gz – https://www.newworldencyclopedia.org/sitemap1.xml – https://www.newworldencyclopedia.org/sitemap_index.xml – https://www.newworldencyclopedia.org/sitemap-index.xml – https://www.newworldencyclopedia.org/sitemapindex.xml – https://www.newworldencyclopedia.org/rss.xml – https://www.newworldencyclopedia.org/sitemaps/ Buscar en Google site:newworldencyclopedia.org filetype:xml tampoco me da nada. ¿Alguna idea de dónde . . . Read more

¿Cómo extraer preguntas de un cuestionario de un sitio web?

Obteniendo el contenido del curso de un sitio web, pero no puedo obtener el resultado exacto, hay demasiado código no deseado. (Usé F12 para las herramientas de desarrollo de Chrome, estoy confundido..) ¿cómo puedo hacerlo de manera sencilla? Mi código: import requests import bs4 res = requests.get(‘https://brilliant.org/practice/computational-models-of-the-neuron/?p=2’) # verifico si . . . Read more

Excepciones silenciosas ocurren de manera inadvertida al usar CralwerRunner de Scrapy.

Estoy intentando usar CrawlerRunner para ejecutar una araña utilizando Scrapy de la siguiente manera: a_crawler = CrawlerRunner(settings) @defer.inlineCallbacks def crawl(): CódigoQueGeneraExcepción() print(“Iniciando araña”) yield a_crawler.crawl(MySpider) reactor.stop() crawl() reactor.run() Extrañamente, la excepción generada por la primera línea de la función crawl no se imprime, no sucede nada y la aplicación se . . . Read more

La búsqueda recursiva con BeautifulSoup es muy lenta.

Estoy construyendo un rastreador que descarga todos los archivos .pdf de un sitio web dado y sus subpáginas. Para ello, he utilizado funcionalidades incorporadas alrededor de la siguiente función recursiva simplificada que recupera todos los enlaces de una URL dada. Sin embargo, esto se vuelve bastante lento a medida que . . . Read more

Web Scraping / Web Crawling Web scraping / rastreo web

¿Alguien puede ayudarme a descubrir cómo extraer / rastrear este sitio web? https://www.arkansasonline.com/i/lrcrime/ He descargado la fuente de la página con “requests” y la he analizado con “BeautifulSoup”, pero no puedo entender qué está sucediendo. Aquí está lo que tengo hasta ahora: ##################################################### import requests from bs4 import BeautifulSoup url . . . Read more