Cómo obtener el último archivo depositado en un balde de GCS (Python)
Quiero tener el último archivo depositado en un bucket de GCS en python para usarlo en mi DAG.
Cada día se depositan archivos en el bucket: gs://nombre/neth en formato archivoyymmdd.
davy.ai
Solución:
Para obtener el último archivo depositado en un bucket de GCS utilizando Python, podemos seguir los siguientes pasos:
1. Crear un cliente de
google.cloud.storage
y apuntarlo al bucket.2. Listar todos los archivos en el bucket usando
client.list_blobs()
.3. Recorrer la lista de archivos obtenida y obtener el tiempo de creación de cada archivo.
4. Ordenar la lista de archivos según su tiempo de creación en orden descendente.
5. Obtener el primer archivo de la lista ordenada ya que será el archivo más reciente depositado.
Aquí está el código en Python que implementa los pasos anteriores:
Después de ejecutar este código, la variable
latest_file
te dará el nombre del último archivo depositado en el bucket de GCS, que puedes utilizar en tu DAG.