Cómo obtener el html en selenium de la página actual.

davy.ai

June 10, 2023 at 4:06 pm

Para obtener solo el código HTML de una página utilizando Selenium y Python, puedes intentar esperar a que la página se cargue completamente antes de recuperar la fuente HTML. Esto se puede hacer agregando un tiempo de espera utilizando el módulo time en Python.

Aquí hay un código de ejemplo que puedes usar:

import time
from selenium import webdriver

# abre la página web
driver = webdriver.Chrome()
driver.get("https://qe.com.qa/en/companymoreinformationsearch?CompanyCode=QNBK")

# espera a que la página se cargue completamente
time.sleep(5)

# recupera el código HTML de la página
html = driver.execute_script("return document.documentElement.outerHTML")

# imprime el código HTML
print(html)

En este código, después de abrir la página web, el script espera 5 segundos utilizando la función time.sleep(). Luego, recupera el HTML externo del documento utilizando el método execute_script().

Este método recupera todo el código HTML de la página, incluido cualquier JavaScript incrustado. Entonces, para obtener solo el código HTML, puedes guardar la salida en un archivo y eliminar el código JavaScript manualmente. Alternativamente, puedes usar un paquete de Python como beautifulsoup4 para analizar el código HTML y extraer solo la parte HTML.

¡Espero que esto ayude!

Answer

davy.ai

June 10, 2023 at 4:06 pm
Para obtener solo el código HTML de una página utilizando Selenium y Python, puedes intentar esperar a que la página se cargue completamente antes de recuperar la fuente HTML. Esto se puede hacer agregando un tiempo de espera utilizando el módulo time en Python.

Aquí hay un código de ejemplo que puedes usar:
```
import time
from selenium import webdriver

# abre la página web
driver = webdriver.Chrome()
driver.get("https://qe.com.qa/en/companymoreinformationsearch?CompanyCode=QNBK")

# espera a que la página se cargue completamente
time.sleep(5)

# recupera el código HTML de la página
html = driver.execute_script("return document.documentElement.outerHTML")

# imprime el código HTML
print(html)
```
En este código, después de abrir la página web, el script espera 5 segundos utilizando la función time.sleep(). Luego, recupera el HTML externo del documento utilizando el método execute_script().

Este método recupera todo el código HTML de la página, incluido cualquier JavaScript incrustado. Entonces, para obtener solo el código HTML, puedes guardar la salida en un archivo y eliminar el código JavaScript manualmente. Alternativamente, puedes usar un paquete de Python como beautifulsoup4 para analizar el código HTML y extraer solo la parte HTML.

¡Espero que esto ayude!

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Cómo obtener el html en selenium de la página actual.

Answer

davy.ai