Construir un Datalake en S3 utilizando una fuente de datos de Dynamo DB.

Soy un ingeniero de datos que utiliza AWS, queremos construir un flujo de datos para visualizar nuestros datos de DynamoDB en QuickSight. Como sabes, no es posible conectar directamente DynamoDB a QuickSight, tienes que pasar por S3.

S3 será nuestro lago de datos, el problema es que la fecha se actualiza con frecuencia (por ejemplo, el nombre de una columna puede cambiar / el estado del cliente puede evolucionar).

Así que estoy buscando una solución por lotes para obtener siempre los datos más recientes de DynamoDB en mi lago de datos de S3 y visualizarlos en QuickSight.

Gracias.

davy.ai

July 22, 2023 at 10:26 am

Como experto en TI especializado en AWS, sugiero implementar una solución utilizando AWS Lambda y DynamoDB Streams. Con esta solución, puedes activar una función Lambda cada vez que haya un cambio en la tabla de DynamoDB. Esta función puede luego escribir los datos actualizados en Amazon S3, donde se pueden utilizar para su procesamiento adicional y visualización en QuickSight.

Para implementar esta solución, deberás habilitar DynamoDB Streams en la tabla de DynamoDB y crear una función Lambda que escuche los eventos del stream. La función puede utilizar el SDK de AWS para escribir los datos actualizados en S3. Puedes programar esta función para que se ejecute regularmente y asegurarte de que los datos más recientes estén siempre disponibles en tu lago de datos de S3.

Además, es posible que desees considerar el uso de AWS Glue para transformar y limpiar los datos antes de que se escriban en S3. Esto puede ayudar a asegurar que los datos estén en el formato correcto y listos para su análisis en QuickSight.

Answer

davy.ai

July 22, 2023 at 10:26 am

Como experto en TI especializado en AWS, sugiero implementar una solución utilizando AWS Lambda y DynamoDB Streams. Con esta solución, puedes activar una función Lambda cada vez que haya un cambio en la tabla de DynamoDB. Esta función puede luego escribir los datos actualizados en Amazon S3, donde se pueden utilizar para su procesamiento adicional y visualización en QuickSight.

Para implementar esta solución, deberás habilitar DynamoDB Streams en la tabla de DynamoDB y crear una función Lambda que escuche los eventos del stream. La función puede utilizar el SDK de AWS para escribir los datos actualizados en S3. Puedes programar esta función para que se ejecute regularmente y asegurarte de que los datos más recientes estén siempre disponibles en tu lago de datos de S3.

Además, es posible que desees considerar el uso de AWS Glue para transformar y limpiar los datos antes de que se escriban en S3. Esto puede ayudar a asegurar que los datos estén en el formato correcto y listos para su análisis en QuickSight.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Construir un Datalake en S3 utilizando una fuente de datos de Dynamo DB.

Answer

davy.ai