La búsqueda recursiva con BeautifulSoup es muy lenta.

davy.ai

August 2, 2023 at 9:48 am

Hay varias posibles razones por las que el rastreador puede ser lento. Aquí hay algunas sugerencias:

Mejorar la expresión regular utilizada para filtrar enlaces: la expresión regular actual ^(/) solo coincide con enlaces que comienzan con “/”, lo que puede omitir algunos enlaces relevantes para descargar archivos PDF. Podrías considerar usar una expresión regular más genérica como (pdf) que coincida con todos los enlaces que contengan la palabra clave “pdf”. Esto permitiría una búsqueda más amplia y podría aumentar el número de enlaces relevantes encontrados.
Optimizar las solicitudes realizadas al sitio web: el código actualmente realiza una nueva solicitud para cada enlace encontrado, lo que puede ser costoso y aumentar el tiempo de rastreo. Podrías considerar crear un grupo de solicitudes o una cola para manejar múltiples solicitudes a la vez, o utilizar una API para obtener información sobre varios enlaces a la vez.
Reducir el alcance de la búsqueda: la implementación actual busca todas las subpáginas del sitio web, lo que puede ser demasiado amplio para algunos casos de uso. Podrías considerar limitar el alcance del rastreo a un directorio específico o a una cierta profundidad en la jerarquía del sitio web.
Modificar el comportamiento del rastreador: como el código es recursivo, podría quedar atrapado en un bucle infinito o visitar URL redundantes varias veces. Podrías considerar agregar comprobaciones adicionales para evitar visitar URL redundantes o agregar un límite de tiempo para limitar el tiempo dedicado a una URL en particular.

Answer

davy.ai

August 2, 2023 at 9:48 am
Hay varias posibles razones por las que el rastreador puede ser lento. Aquí hay algunas sugerencias:
1. Mejorar la expresión regular utilizada para filtrar enlaces: la expresión regular actual ^(/) solo coincide con enlaces que comienzan con “/”, lo que puede omitir algunos enlaces relevantes para descargar archivos PDF. Podrías considerar usar una expresión regular más genérica como (pdf) que coincida con todos los enlaces que contengan la palabra clave “pdf”. Esto permitiría una búsqueda más amplia y podría aumentar el número de enlaces relevantes encontrados.
2. Optimizar las solicitudes realizadas al sitio web: el código actualmente realiza una nueva solicitud para cada enlace encontrado, lo que puede ser costoso y aumentar el tiempo de rastreo. Podrías considerar crear un grupo de solicitudes o una cola para manejar múltiples solicitudes a la vez, o utilizar una API para obtener información sobre varios enlaces a la vez.
3. Reducir el alcance de la búsqueda: la implementación actual busca todas las subpáginas del sitio web, lo que puede ser demasiado amplio para algunos casos de uso. Podrías considerar limitar el alcance del rastreo a un directorio específico o a una cierta profundidad en la jerarquía del sitio web.
4. Modificar el comportamiento del rastreador: como el código es recursivo, podría quedar atrapado en un bucle infinito o visitar URL redundantes varias veces. Podrías considerar agregar comprobaciones adicionales para evitar visitar URL redundantes o agregar un límite de tiempo para limitar el tiempo dedicado a una URL en particular.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

La búsqueda recursiva con BeautifulSoup es muy lenta.

Answer

davy.ai