Tag: AWS-GLUE
Escenario: Tengo un trabajo de AWS Glue que se ocupa de S3 y realiza algunas exploraciones para insertar datos de los archivos de S3 en postgres en RDS. Debido a que el tamaño del archivo a veces es muy grande, lleva mucho tiempo realizar la operación, por lo que el . . . Read more
Estoy intentando importar datos de MongoDB a un trabajo de AWS Glue y luego a Redshift, pero al realizar la carga desde MongoDB obtengo esta extraña excepción, ¿hay alguna manera de solucionar este problema? AnálisisException: Se encontraron columnas duplicadas en el esquema de datos: column1, column2, column3 Después de buscar . . . Read more
Utilizo AWS Glue y Apache Hudi para replicar datos en RDS a S3. Si ejecuto el siguiente trabajo, se generarán 2 archivos parquet (el inicial y el actualizado) en el bucket S3 (rutaBase). En este caso, solo quiero tener 1 archivo más reciente y me gustaría eliminar el antiguo. ¿Alguien . . . Read more
Estoy intentando iniciar un trabajo de AWS Glue (Python shell) a través de una función Lambda cuando se agregue un archivo nuevo en un depósito S3. Tengo el trabajo de Glue configurado y funciona como se espera si lo ejecuto manualmente. Pensé que el desencadenamiento del trabajo de Glue desde . . . Read more
Para consultar un catálogo de Glue desde PySpark en EMR, configuro el parámetro hive.metastore.glue.catalogid en la configuración de mi grupo. ¿Es posible unir tablas de catálogos de Glue diferentes (en diferentes cuentas de AWS)? Intenté crear una vista con Athena de un inquilino de AWS al otro, pero aparentemente PySpark . . . Read more