Raspado de paginación dinámica con Selenium

Visión general

Esta es una breve guía para expertos en TI especializados en Python, Selenium, Selenium-Webdriver y Web-Scraping. El objetivo es proporcionar asistencia para aquellos que son nuevos en el raspado de paginación dinámica utilizando Selenium.

Declaración del problema

El experto en TI está tratando de extraer datos de un sitio web (https://merolagani.com/Floorsheet.aspx) que contiene tablas distribuidas en 118 páginas. El objetivo es raspar todas las tablas y almacenar los datos en formato JSON. El experto en TI ha impreso exitosamente los datos de la primera tabla, pero se produce una excepción al intentar pasar a la siguiente página.

Solución

Selenium es una herramienta de automatización que interactúa con los navegadores web para simular acciones humanas. La función find_element() busca un solo elemento en la página web, mientras que la función find_elements() busca varios elementos.

Cuando se raspan sitios web dinámicos, la función find_element() puede causar una StaleElementReferenceException, que ocurre cuando el DOM cambia y el elemento previamente referenciado ya no está disponible. Esta solución involucra usar find_elements() para almacenar todos los datos de la tabla y luego iterar a través de las filas de la tabla haciendo clic en el botón “Siguiente”.

Aquí está el código modificado que aborda el problema:

driver = webdriver.Firefox(executable_path=GeckoDriverManager().install())
driver.get("https://merolagani.com/Floorsheet.aspx")

table_data = driver.find_elements(By.XPATH, "//tbody/tr")

for z in table_data:
    td = z.find_elements(By.TAG_NAME, "td")
    for data in td:
        print(data.text)
        time.sleep(1)

while True:
    try:
        next_button = driver.find_element(By.XPATH, "(//a[@title='Siguiente página'])[2]")
        time.sleep(1)
        next_button.click()
        table_data = driver.find_elements(By.XPATH, "//tbody/tr")
        for z in table_data:
            td = z.find_elements(By.TAG_NAME, "td")
            for data in td:
                print(data.text)
                time.sleep(1)
    except NoSuchElementException:
        print("Raspado completado")
        break

El código anterior almacena todos los datos de la primera página en la variable table_data utilizando la función find_elements. Luego, el script itera sobre cada fila de la tabla e imprime los datos en la consola.

El bucle while encuentra el botón “Siguiente” utilizando la función find_element() y hace clic en él. Luego espera un segundo para dar suficiente tiempo a la tabla para que se cargue. Luego encuentra todas las filas en la tabla utilizando la función find_elements e itera sobre cada fila para imprimir los datos en la consola.

La excepción NoSuchElementException se lanza cuando no hay más botones “Siguiente” y el bucle while responde rompiendo el ciclo e imprimiendo “Raspado completado” en la consola.

Conclusión

Los sitios web dinámicos a menudo requieren raspado web utilizando herramientas de automatización como Selenium. Sin embargo, se debe tener cuidado al raspar estos sitios web debido a que los elementos del DOM pueden cambiar, lo que provoca que se lancen excepciones. Esta guía proporciona un enfoque que tiene en cuenta esas complicaciones y debería ayudar a los expertos en TI especializados en el raspado de paginación dinámica utilizando Selenium.

Answer

davy.ai

August 2, 2023 at 3:15 pm
Raspado de paginación dinámica con Selenium

Visión general

Esta es una breve guía para expertos en TI especializados en Python, Selenium, Selenium-Webdriver y Web-Scraping. El objetivo es proporcionar asistencia para aquellos que son nuevos en el raspado de paginación dinámica utilizando Selenium.

Declaración del problema

El experto en TI está tratando de extraer datos de un sitio web (https://merolagani.com/Floorsheet.aspx) que contiene tablas distribuidas en 118 páginas. El objetivo es raspar todas las tablas y almacenar los datos en formato JSON. El experto en TI ha impreso exitosamente los datos de la primera tabla, pero se produce una excepción al intentar pasar a la siguiente página.

Solución

Selenium es una herramienta de automatización que interactúa con los navegadores web para simular acciones humanas. La función find_element() busca un solo elemento en la página web, mientras que la función find_elements() busca varios elementos.

Cuando se raspan sitios web dinámicos, la función find_element() puede causar una StaleElementReferenceException, que ocurre cuando el DOM cambia y el elemento previamente referenciado ya no está disponible. Esta solución involucra usar find_elements() para almacenar todos los datos de la tabla y luego iterar a través de las filas de la tabla haciendo clic en el botón “Siguiente”.

Aquí está el código modificado que aborda el problema:
```
driver = webdriver.Firefox(executable_path=GeckoDriverManager().install())
driver.get("https://merolagani.com/Floorsheet.aspx")

table_data = driver.find_elements(By.XPATH, "//tbody/tr")

for z in table_data:
    td = z.find_elements(By.TAG_NAME, "td")
    for data in td:
        print(data.text)
        time.sleep(1)

while True:
    try:
        next_button = driver.find_element(By.XPATH, "(//a[@title='Siguiente página'])[2]")
        time.sleep(1)
        next_button.click()
        table_data = driver.find_elements(By.XPATH, "//tbody/tr")
        for z in table_data:
            td = z.find_elements(By.TAG_NAME, "td")
            for data in td:
                print(data.text)
                time.sleep(1)
    except NoSuchElementException:
        print("Raspado completado")
        break
```
El código anterior almacena todos los datos de la primera página en la variable table_data utilizando la función find_elements. Luego, el script itera sobre cada fila de la tabla e imprime los datos en la consola.

El bucle while encuentra el botón “Siguiente” utilizando la función find_element() y hace clic en él. Luego espera un segundo para dar suficiente tiempo a la tabla para que se cargue. Luego encuentra todas las filas en la tabla utilizando la función find_elements e itera sobre cada fila para imprimir los datos en la consola.

La excepción NoSuchElementException se lanza cuando no hay más botones “Siguiente” y el bucle while responde rompiendo el ciclo e imprimiendo “Raspado completado” en la consola.

Conclusión

Los sitios web dinámicos a menudo requieren raspado web utilizando herramientas de automatización como Selenium. Sin embargo, se debe tener cuidado al raspar estos sitios web debido a que los elementos del DOM pueden cambiar, lo que provoca que se lancen excepciones. Esta guía proporciona un enfoque que tiene en cuenta esas complicaciones y debería ayudar a los expertos en TI especializados en el raspado de paginación dinámica utilizando Selenium.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

El elemento de Selenium ya no está adjuntado al DOM. Error al raspar una tabla dinámica.