Tag: WEB-CRAWLER
No tengo suerte encontrando el mapa del sitio de https://www.newworldencyclopedia.org. No está aquí: https://www.newworldencyclopedia.org/robots.txt He probado estos: – https://www.newworldencyclopedia.org/sitemap.xml – https://www.newworldencyclopedia.org/sitemap.txt – https://www.newworldencyclopedia.org/sitemap.php – https://www.newworldencyclopedia.org/sitemap.xml.gz – https://www.newworldencyclopedia.org/sitemap1.xml – https://www.newworldencyclopedia.org/sitemap_index.xml – https://www.newworldencyclopedia.org/sitemap-index.xml – https://www.newworldencyclopedia.org/sitemapindex.xml – https://www.newworldencyclopedia.org/rss.xml – https://www.newworldencyclopedia.org/sitemaps/ Buscar en Google site:newworldencyclopedia.org filetype:xml tampoco me da nada. ¿Alguna idea de dónde . . . Read more
Obteniendo el contenido del curso de un sitio web, pero no puedo obtener el resultado exacto, hay demasiado código no deseado. (Usé F12 para las herramientas de desarrollo de Chrome, estoy confundido..) ¿cómo puedo hacerlo de manera sencilla? Mi código: import requests import bs4 res = requests.get(‘https://brilliant.org/practice/computational-models-of-the-neuron/?p=2’) # verifico si . . . Read more
Estoy intentando usar CrawlerRunner para ejecutar una araña utilizando Scrapy de la siguiente manera: a_crawler = CrawlerRunner(settings) @defer.inlineCallbacks def crawl(): CódigoQueGeneraExcepción() print(“Iniciando araña”) yield a_crawler.crawl(MySpider) reactor.stop() crawl() reactor.run() Extrañamente, la excepción generada por la primera línea de la función crawl no se imprime, no sucede nada y la aplicación se . . . Read more
Estoy construyendo un rastreador que descarga todos los archivos .pdf de un sitio web dado y sus subpáginas. Para ello, he utilizado funcionalidades incorporadas alrededor de la siguiente función recursiva simplificada que recupera todos los enlaces de una URL dada. Sin embargo, esto se vuelve bastante lento a medida que . . . Read more
¿Alguien puede ayudarme a descubrir cómo extraer / rastrear este sitio web? https://www.arkansasonline.com/i/lrcrime/ He descargado la fuente de la página con “requests” y la he analizado con “BeautifulSoup”, pero no puedo entender qué está sucediendo. Aquí está lo que tengo hasta ahora: ##################################################### import requests from bs4 import BeautifulSoup url . . . Read more