es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: WEB-CRAWLER

Removiendo especificaciones

de los resultados del web scraping con beautifulsoup4.

Actualmente estoy intentando rastrear los titulares de los artículos de noticias desde . Después de descubrir que todos los titulares están bajo las clases h2, escribí el siguiente código: import requests from bs4 import BeautifulSoup url = ‘https://7news.com.au/news/coronavirus-sa’ r = requests.get(url) soup = BeautifulSoup(r.text, ‘html.parser’) titles = soup.find(‘body’).find_all(‘h2’) for i . . . Read more

¿Qué es este error de Scrapy: ReactorNotRestartable?

No entiendo por qué mi spider no se ejecuta. Probé el selector CSS por separado, así que no creo que sea el método de análisis. Mensaje de seguimiento: ReactorNotRestartable: class espn_spider(scrapy.Spider): name = “fsu2021_spider” def start_requests(self): urls = “https://www.espn.com/college-football/team/_/id/52” for url in urls: yield scrapy.Request(url = url, callback = self.parse_front) . . . Read more

No se obtiene ningún número al rastrear la cantidad de nuevos casos de COVID a través de BeautifulSoup.

Buenas tardes, Actualmente estoy intentando rastrear el número de casos de COVID-19 en Australia del Sur desde el sitio web (). Descubrí que los números están dentro de: <div id=”convid19-data-visual” class=”twbs”> <div class=”container”> <div class=”row southaus”> <div clsass=”col-md-6 col-lg-4″ style=”padding:10px 25px”> <div class=”st”> “Nuevos Casos” <span class=”nCasesa majorNum”>64</span> </div> </div> . . . Read more

Selenium find_elements solo funciona si transcurre tiempo desde get().

Al ejecutar estas 2 líneas juntas en Colab, devuelve []: python wd.get(“https://wetransfer.com/”) wd.find_elements(By.CSS_SELECTOR, ‘input[type=file]’) Sin embargo, al ejecutar una línea después de la otra, se obtiene el resultado esperado: python [<selenium.webdriver.remote.webelement.webelement (session=”3cdfb3afbb591862e909cd406b6ac523″ ,=”” element=”19fd31e8-710a-4b6e-8284-9a7409f12718″ )=””>, <selenium.webdriver.remote.webelement.webelement (session=”3cdfb3afbb591862e909cd406b6ac523″ ,=”” element=”837097d1-5735-4b24-9cb2-9d3ded3a0311″ )=””>] </selenium.webdriver.remote.webelement.webelement></selenium.webdriver.remote.webelement.webelement> El comando get se supone que es bloqueante, así . . . Read more