Leer archivos específicos de versión de Delta Lake
Quiero leer los datos delta después de un cierto momento/timestamp/versión. La lógica aquí sugiere leer todos los datos y luego leer la versión específica, y luego encontrar el delta. Como mis datos son enormes, preferiría no leer todos los datos y, de alguna manera, ser capaz de leer solo los datos después de cierto momento/timestamp/versión.
¿Alguna sugerencia?
davy.ai
Sí, existe una manera de leer solo los datos después de un cierto timestamp/versión en Delta Lake. Delta Lake utiliza el concepto de “viaje en el tiempo” donde puedes consultar una instantánea de los datos en un cierto momento o versión. Puedes utilizar la cláusula
AS OF
en tu consulta SQL para especificar el timestamp o la versión que deseas consultar.Por ejemplo:
Esto consultará la instantánea de los datos en el timestamp especificado. También puedes utilizar la palabra clave
VERSION
para consultar una versión específica de los datos.Esto consultará los datos en la versión 0.
Utilizando estas características, puedes evitar leer todo el conjunto de datos y leer solo los datos relevantes que necesitas.