es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

“Parsear una página en modo de desvinculación sigue siendo detectado como un bot.”

Estoy intentando descomponer algunos sitios que utilizan algoritmos de detección de bots. Utilizo las siguientes opciones de Chrome:

chrome_options = Options()
chrome_options.add_argument("start-maximized")
chrome_options.add_experimental_option("detach", True)
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
chrome_options.add_experimental_option('useAutomationExtension', False)
chrome_options.add_argument("--disable-blink-features")
chrome_options.add_argument('--start-maximized')
chrome_options.add_argument('--window-size=1920,1080')
chrome_options.add_argument("--disable-blink-features=AutomationControlled")
driver = webdriver.Chrome(executable_path='chromedriver.exe', chrome_options=chrome_options)
driver.get(url)

También se parcheó chromedriver.exe para eliminar el patrón cdc_.

Cuando la ventana del navegador se abre y va al sitio, el sitio lo detecta como un bot y evita la carga de contenido. Pero cuando el navegador entra en modo de separación y presiono manualmente el botón “Actualizar”, el contenido del sitio se carga correctamente. La simulación de presionar “f5” tampoco funciona, el sitio sigue bloqueando la carga de contenido.

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Parece que el sitio que intenta analizar tiene un mecanismo de detección de bots que puede detectar el uso de Selenium y evitar que se carguen los contenidos. Sin embargo, separar el controlador de la ventana del navegador y actualizar manualmente la página parece resolver el problema.

    La simulación de presionar “f5” utilizando Selenium puede que no funcione porque el mecanismo de detección de bots puede detectar la acción automatizada.

    Es posible que desee intentar implementar un comportamiento similar al de un humano en su script para evitar ser detectado como un bot, como agregar pausas aleatorias entre acciones, usar diferentes perfiles de navegador y agentes de usuario, e interactuar con el sitio de manera similar a como lo haría un usuario regular. Alternativamente, también puede considerar usar un método de análisis diferente, como utilizar una API o aprovechar un servicio de web scraping que pueda manejar los mecanismos de detección de bots.

Comments are closed.