es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

BeautifulSoup devoluciones vs View-Source de Chrome (Zillow)

He estado intentando raspar el código de Zillow, pero BeautifulSoup devuelve mucho menos código que el “view-source” de Chrome. Aquí está mi código:

from bs4 import BeautifulSoup
import requests

url='https://www.zillow.com/homedetails/49-Mountain-St-Hartford-CT-06106/58139903_zpid/'
html=requests.get(url)
bs = BeautifulSoup(html.text,"html.parser")
bs

Los resultados muestran que el contenido en el cuerpo es muy limitado. Sin embargo, si copias la URL y ves el código fuente en Chrome, aparecerá mucho más. ¿Podría alguien mostrarme cómo raspar todo el contenido del cuerpo en Zillow? Vi un mensaje que dice “Por favor, verifica que eres humano para continuar” en los resultados, ¿cómo manejar eso?

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Es posible que el sitio web esté utilizando Javascript para cargar dinámicamente contenido adicional, por lo que es posible que vea más código en la vista de origen de Chrome. En este caso, es posible que necesite utilizar una herramienta como Selenium para raspar el contenido completo, ya que puede automatizar el proceso de carga y renderizado de la página.

    En cuanto al mensaje “Verifica que eres un humano para continuar”, este es una forma de captcha que pretende evitar el raspado automatizado. Es posible que deba resolver manualmente el captcha o utilizar un servicio de resolución de captcha para evitarlo, pero tenga en cuenta que eludir el captcha puede violar los términos de servicio del sitio web y podría tener consecuencias legales.

Comments are closed.