Tag: WEB-CRAWLER
Actualmente estoy intentando rastrear los titulares de los artículos de noticias desde . Después de descubrir que todos los titulares están bajo las clases h2, escribí el siguiente código: import requests from bs4 import BeautifulSoup url = ‘https://7news.com.au/news/coronavirus-sa’ r = requests.get(url) soup = BeautifulSoup(r.text, ‘html.parser’) titles = soup.find(‘body’).find_all(‘h2’) for i . . . Read more
No entiendo por qué mi spider no se ejecuta. Probé el selector CSS por separado, así que no creo que sea el método de análisis. Mensaje de seguimiento: ReactorNotRestartable: class espn_spider(scrapy.Spider): name = “fsu2021_spider” def start_requests(self): urls = “https://www.espn.com/college-football/team/_/id/52” for url in urls: yield scrapy.Request(url = url, callback = self.parse_front) . . . Read more
Buenas tardes, Actualmente estoy intentando rastrear el número de casos de COVID-19 en Australia del Sur desde el sitio web (). Descubrí que los números están dentro de: <div id=”convid19-data-visual” class=”twbs”> <div class=”container”> <div class=”row southaus”> <div clsass=”col-md-6 col-lg-4″ style=”padding:10px 25px”> <div class=”st”> “Nuevos Casos” <span class=”nCasesa majorNum”>64</span> </div> </div> . . . Read more
Al ejecutar estas 2 líneas juntas en Colab, devuelve []: python wd.get(“https://wetransfer.com/”) wd.find_elements(By.CSS_SELECTOR, ‘input[type=file]’) Sin embargo, al ejecutar una línea después de la otra, se obtiene el resultado esperado: python [<selenium.webdriver.remote.webelement.webelement (session=”3cdfb3afbb591862e909cd406b6ac523″ ,=”” element=”19fd31e8-710a-4b6e-8284-9a7409f12718″ )=””>, <selenium.webdriver.remote.webelement.webelement (session=”3cdfb3afbb591862e909cd406b6ac523″ ,=”” element=”837097d1-5735-4b24-9cb2-9d3ded3a0311″ )=””>] </selenium.webdriver.remote.webelement.webelement></selenium.webdriver.remote.webelement.webelement> El comando get se supone que es bloqueante, así . . . Read more
Obtengo ‘X-Robots-Tag: noindex; nofollow’ en mi encabezado de respuesta. Quiero que se establezca en ‘index; follow’.