Tag: WEB-SCRAPING
Estoy tratando de extraer información de un sitio web que devuelve HTTP403 si JavaScript no está habilitado. La metodología que estoy intentando implementar es la siguiente: En el método “parse”, el controlador de Selenium obtiene la URL de “response.requets.url” y accede a la página. Pero el problema que estoy enfrentando . . . Read more
Estoy tratando de ver si puedo usar, y solo usar, la función read_html de Pandas para extraer tablas HTML del siguiente sitio web: https://www.baseball-reference.com/teams/ATL/2021.shtml Puedo satisfacer mis necesidades usando selenium/bs pero quiero ver si puedo extraer las tablas de este sitio solo con pd.read_html. Actualmente, pd.read_html devuelve las primeras dos . . . Read more
Quiero obtener en un solo DataFrame todas las tablas diferentes de cada empresa rastreando esta página web: https://rk.americaeconomia.com/display/embed/500-latam/2021 o https://www.americaeconomia.com/negocios-industrias/estas-son-las-500-mayores-empresas-de-america-latina-2021 Ha sido muy difícil encontrar una solución.
Esta es mi primera experiencia en el raspado de paginación dinámica con Selenium. Quiero raspar el siguiente sitio web. Básicamente, la idea es raspar todas las 118 páginas de la tabla y guardarlas en un archivo JSON. Intenté obtener la primera tabla e imprimió perfectamente bien, pero cuando intenté ir . . . Read more
Soy nuevo en HTMLUnit. Estoy tratando de obtener información de un sitio público (proporcionado en el código a continuación). Mientras puedo abrir esta URL pública en el navegador Chrome o en la extensión Chrome Selenium sin errores y seguir funcionando con ella, mi programa HTMLUnit está arrojando un error como . . . Read more