es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Obtener la lista de archivos cargados desde Databricks Autoloader.

Podemos utilizar Autoloader para rastrear los archivos que se han cargado o no desde el bucket de S3. Mi pregunta sobre Autoloader: ¿hay alguna forma de leer la base de datos de Autoloader para obtener la lista de archivos que se han cargado?

Puedo hacer esto fácilmente en el bookmark del trabajo de AWS Glue, pero no sé cómo hacerlo en Databricks Autoloader.

Tags:  ,

Answer

  1. Avatar for davy.ai

    Desafortunadamente, no hay una manera directa de leer la base de datos de Autoloader para obtener la lista de archivos que se han cargado en Databricks. El propósito de Autoloader es automatizar el proceso de ingestión de datos desde los buckets de S3 y asegurarse de que no se pierda ningún dato durante la ingestión. Su enfoque principal es garantizar que todos los datos en el bucket de S3 sean ingeridos en el sistema de datos objetivo, y sirve como una fuente de datos mientras se transmiten datos desde S3 a una ubicación objetivo en Databricks.

    Sin embargo, indirectamente se puede obtener la lista de archivos que se han cargado mediante la visualización de los registros de ingestión creados por Autoloader. Los registros contienen información sobre los archivos que se han ingerido en el sistema. Puedes aprovechar la API de Databricks o la interfaz de usuario de Databricks para ver los registros.

    Para acceder a los registros de Autoloader utilizando la interfaz de usuario de Databricks, sigue estos pasos:

    1. Ve a la página de inicio del espacio de trabajo de Databricks.
    2. Haz clic en la pestaña “Clusters” y selecciona el cluster en ejecución que está ejecutando el trabajo de Autoloader.
    3. Haz clic en la pestaña “Logs” y selecciona el archivo de registro de Autoloader.
    4. Desplázate por los registros para encontrar la información sobre los archivos que se han ingerido.

    También puedes utilizar la API de Databricks para obtener programáticamente los registros de Autoloader. Por ejemplo, puedes utilizar el punto de conexión GET /jobs/runs/get-output para obtener los registros de una ejecución de trabajo específica. Los registros devueltos por este punto de conexión contienen información sobre los archivos que ha ingerido Autoloader.

    En resumen, aunque no hay una manera directa de leer la base de datos de Autoloader para obtener la lista de archivos que se han cargado, los registros de Autoloader proporcionan una manera indirecta de obtener la información necesaria.

Comments are closed.