Tag: WEB-SCRAPING
Desde mi conocimiento, hay dos formas de usar un controlador de Chrome con Selenium en Python: 1) Descargando el archivo chromedriver.exe y luego integrándolo en el parámetro: browser = webdriver.Chrome(executable_path=r”C:\ruta\al\chromedriver.exe”) 2) Instalando chromedriver_binary mediante el siguiente comando: pip install chromedriver-binary En este caso, no es necesario configurar la instanciación del . . . Read more
Cada vez que navego a un sitio web específico usando RSelenium, obtengo un error de solicitud incorrecta 400. Otros sitios web funcionan bien, por ejemplo, google. `fprof <- makeFirefoxProfile(list(general.useragent.override=sample(user_agent_list,1))) remDr <- remoteDriver(remoteServerAddr = “localhost”, port = 4445L, extraCapabilities = fprof ) remDr$open() remDr$navigate(“http://www.google.com”)` El sitio web está escrito correctamente, ¿hay . . . Read more
Pregunté esta pregunta antes y fue una solución perfecta. Un código perfectamente funcional para múltiples archivos tradicionales xml se muestra a continuación. import pandas as pd from glob import glob from bs4 import BeautifulSoup l = list() for f in glob(‘*.xml’): # Cambiado a .txt aquí pub = dict() with . . . Read more
Escuchante de larga data, primerizo en publicar, Espero obtener ayuda para extraer el atributo href de un sitio web utilizando Google Chrome. He buscado y probado durante horas y no puedo hacer que el código funcione. Este es el sitio web: https://pool.pm/addr1qxlxmpqamdnzs9gpgvjnsxehu4pd95a9ddhhcuxadvzv69jjtu4lhppapqxxgtsxweackk6se5m3zp9qkadsu62de8uqrp3dk4/%409e9e948d Este es un fragmento de código HTML que . . . Read more
He estado intentando extraer datos de las búsquedas en Google pero no puedo evitar el formulario de consentimiento “Antes de continuar con la búsqueda en Google”. Intenté encontrar una solución alternativa y vi que otros han sugerido usar el argumento “CONSENT=PENDING+999”, o algo similar a “CONSENT=YES+HU.hu+V10+B+256” en la solicitud GET. . . . Read more