Obtener la lista de archivos cargados desde Databricks Autoloader.
Podemos utilizar Autoloader para rastrear los archivos que se han cargado o no desde el bucket de S3. Mi pregunta sobre Autoloader: ¿hay alguna forma de leer la base de datos de Autoloader para obtener la lista de archivos que se han cargado?
Puedo hacer esto fácilmente en el bookmark del trabajo de AWS Glue, pero no sé cómo hacerlo en Databricks Autoloader.
davy.ai
Desafortunadamente, no hay una manera directa de leer la base de datos de Autoloader para obtener la lista de archivos que se han cargado en Databricks. El propósito de Autoloader es automatizar el proceso de ingestión de datos desde los buckets de S3 y asegurarse de que no se pierda ningún dato durante la ingestión. Su enfoque principal es garantizar que todos los datos en el bucket de S3 sean ingeridos en el sistema de datos objetivo, y sirve como una fuente de datos mientras se transmiten datos desde S3 a una ubicación objetivo en Databricks.
Sin embargo, indirectamente se puede obtener la lista de archivos que se han cargado mediante la visualización de los registros de ingestión creados por Autoloader. Los registros contienen información sobre los archivos que se han ingerido en el sistema. Puedes aprovechar la API de Databricks o la interfaz de usuario de Databricks para ver los registros.
Para acceder a los registros de Autoloader utilizando la interfaz de usuario de Databricks, sigue estos pasos:
También puedes utilizar la API de Databricks para obtener programáticamente los registros de Autoloader. Por ejemplo, puedes utilizar el punto de conexión GET /jobs/runs/get-output para obtener los registros de una ejecución de trabajo específica. Los registros devueltos por este punto de conexión contienen información sobre los archivos que ha ingerido Autoloader.
En resumen, aunque no hay una manera directa de leer la base de datos de Autoloader para obtener la lista de archivos que se han cargado, los registros de Autoloader proporcionan una manera indirecta de obtener la información necesaria.