es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: AWS-GLUE

Abrir y leer archivos en AWS Glue con Python

Tengo un código Python simple a continuación. Esto está escrito en el escritorio, ahora quiero recrear esto en AWS Glue o Lambda, tengo que leer el archivo de prueba testfile.csv desde un directorio de S3 y guardarlo en un archivo txt como se muestra a continuación. ¿Cómo puedo recrear esta . . . Read more

AWS Glue Job en Scala (desde el bucket de S3) provoca ClassNottFound.

Estoy tratando de seguir la documentación de AWS Glue para desarrollar un programa en Scala y crear un nuevo trabajo de Glue. Hasta ahora, estos han sido mis pasos: Construí un programa de muestra en Scala siguiendo las indicaciones de https://docs.aws.amazon.com/glue/latest/dg/glue-etl-scala-example.html. Agrupé la clase principal de Scala en un archivo . . . Read more

AWS Glue vs EMR Serverless AWS Glue y EMR Serverless son servicios de computación en la nube proporcionados por Amazon Web Services (AWS) que se utilizan para procesar grandes volúmenes de datos en entornos de Big Data. AWS Glue es un servicio completamente administrado que se utiliza para extraer, transformar y cargar (ETL) datos de diversas fuentes en un lago de datos o almacén de datos centralizado. Proporciona un entorno visual para la creación de trabajos ETL y permite automatizar tareas como la definición de esquemas de datos, la limpieza de datos y la transformación de datos. AWS Glue es ideal para casos de uso donde se requiere un procesamiento por lotes y se necesita una gestión de infraestructura mínima. EMR Serverless, por otro lado, es un servicio que permite ejecutar cargas de trabajo de procesamiento de datos en clústeres de Apache Spark sin necesidad de aprovisionar y administrar infraestructura de servidor. Con EMR Serverless, AWS administra automáticamente la infraestructura subyacente, lo que simplifica la administración y reduce los costos operativos. Este servicio es adecuado para casos de uso donde se necesita un procesamiento en tiempo real o ad hoc de datos y se valora la escalabilidad y la flexibilidad. En resumen, tanto AWS Glue como EMR Serverless son servicios de AWS utilizados para procesar datos en entornos de Big Data, pero difieren en la forma en que se administra la infraestructura y se ejecutan las cargas de trabajo. AWS Glue se enfoca en el ETL y el procesamiento por lotes, mientras que EMR Serverless se enfoca en el procesamiento en tiempo real y la flexibilidad.

Recientemente, AWS anunció Amazon EMR Serverless (Preview) https://aws.amazon.com/blogs/big-data/announcing-amazon-emr-serverless-preview-run-big-data-applications-without-managing-servers/ – un nuevo servicio muy prometedor. Según entiendo, AWS Glue es un servicio administrado sobre Apache Spark (para la capa de transformación). AWS EMR también se utiliza principalmente para Apache Spark. Así que EMR Serverless (para Apache Spark) parece ser algo muy . . . Read more