es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Cómo obtener el html en selenium de la página actual.

Intento obtener el código HTML de la página, pero driver.page_source siempre devuelve HTML + JavaScript.

Sé que hay muchas formas descritas anteriormente, pero en mi caso no funcionan.

La página es – https://qe.com.qa/en/companymoreinformationsearch?CompanyCode=QNBK

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Para obtener solo el código HTML de una página utilizando Selenium y Python, puedes intentar esperar a que la página se cargue completamente antes de recuperar la fuente HTML. Esto se puede hacer agregando un tiempo de espera utilizando el módulo time en Python.

    Aquí hay un código de ejemplo que puedes usar:

    import time
    from selenium import webdriver
    
    # abre la página web
    driver = webdriver.Chrome()
    driver.get("https://qe.com.qa/en/companymoreinformationsearch?CompanyCode=QNBK")
    
    # espera a que la página se cargue completamente
    time.sleep(5)
    
    # recupera el código HTML de la página
    html = driver.execute_script("return document.documentElement.outerHTML")
    
    # imprime el código HTML
    print(html)
    

    En este código, después de abrir la página web, el script espera 5 segundos utilizando la función time.sleep(). Luego, recupera el HTML externo del documento utilizando el método execute_script().

    Este método recupera todo el código HTML de la página, incluido cualquier JavaScript incrustado. Entonces, para obtener solo el código HTML, puedes guardar la salida en un archivo y eliminar el código JavaScript manualmente. Alternativamente, puedes usar un paquete de Python como beautifulsoup4 para analizar el código HTML y extraer solo la parte HTML.

    ¡Espero que esto ayude!

Comments are closed.