Tag: BEAUTIFULSOUP
Tengo un objeto “soup” como este: <span class="nowrap"> 2 633 <span class="currency rub">q</span> </span> Hice lo siguiente: precio = item.find(‘span’, class_=’nowrap’) precio_x = precio.text.strip() print(precio_x) Resultado: 2 633 q. ¿Cómo puedo obtener sin ‘q’. Sólo: 2 633?
Estoy tratando de extraer el valor de una etiqueta de entrada oculta. Aunque el elemento existe en el HTML, no puedo encontrarlo con bs4. Este es el mensaje de error que obtengo: AttributeError: el objeto ‘NoneType’ no tiene el atributo ‘find’ Este es el html en la página web: <form . . . Read more
Hola, necesito extraer resúmenes y DOIs de registros en Google Scholar, usando bs4 o Selenium. Tengo un problema con páginas de “academic.oup” como esta: https://academic.oup.com/eurheartj/article-abstract/42/Supplement_1/ehab724.1650/6394300 No puedo extraer ni el DOI ni el resumen con bs4 o selenium. Aquí está mi código con selenium: driver = webdriver.Chrome(‘/Users/cante/Downloads/chromedriverwin32/chromedriver.exe’) driver.get(‘https://academic.oup.com/eurheartj/article-abstract/42/Supplement_1/ehab724.1650/6394300’) abstract = . . . Read more
He almacenado un texto en formato html raspando un sitio web, por lo que solo contiene encabezados y párrafos. A partir de mi estructura HTML que se ve así: <h2> título uno </h2> <p> algún texto </p> <p> algún texto más </p> <h2> título dos </h2> . . <h2> título . . . Read more
Estoy utilizando Python y bs4 para raspar datos de GitHub y quiero raspar las estrellas de un usuario utilizando esta función: “` def total_estrellas(usuario): try: html = requests.get(‘https://github.com/’+usuario).text soup = BeautifulSoup(html, ‘html.parser’) total_commits = soup.select_one(‘#js-pjax-container div.container-xl.px-3.px-md-4.px-lg-5 div div.flex-shrink-0.col-12.col-md-3.mb-4.mb-md-0 div div.js-profile-editable-replace div.d-flex.flex-column div.js-profile-editable-area.d-flex.flex-column.d-md-block div.flex-order-1.flex-md-order-none.mt-2.mt-md-0 div a:nth-child(3) span’).text print(total_estrellas) return total_commits except: . . . Read more