Tag: AWS-GLUE-SPARK
Estoy escribiendo un trabajo de aws glue (código pyspark) utilizando la Transformación SQL. Estoy obteniendo un error con scala.MatchError: list#5252 [] (de la clase org.apache.spark.sql.catalyst.expressions.ListQuery). Hay una tabla llamada tbl1 y cuando excluyo esta tabla de la consulta, funciona correctamente, pero tan pronto como se utiliza tbl1, se arroja el . . . Read more
Estoy intentando usar la función glueContext.purge_table en mi trabajo de AWS Glue. Cada vez que se ejecuta el trabajo, se produce el siguiente error: Se produjo un error al llamar a o82.purgeTable. : java.lang.RuntimeException: class com.amazonaws.services.gluejobexecutor.model.AccessDeniedException: El usuario: arn:aws:sts::012345678:assumed-role/XYZ/GlueJobRunnerSession no tiene autorización para realizar lakeformation:GetDataAccess en el recurso: arn:aws:glue:us-east-1:MICHIGAN_DEFAULT_CATALOG_ID_RANDOMIZED:table/database/table (Servicio: . . . Read more
Estoy tratando de ejecutar el trabajo de pegado de chispa con una configuración de 2.x donde se utilizan 50 trabajadores y 16 núcleos, pero todavía el trabajo falla con no hay espacio en el dispositivo. Siempre apunta a un ejecutor al final y luego arroja el problema de espacio. También . . . Read more
En la imagen siguiente, ejecutamos el mismo trabajo glue con tres configuraciones diferentes en cuanto a cómo escribimos en S3: Utilizamos un dynamic frame para escribir en S3 Utilizamos un pure spark frame para escribir en S3 Igual que en el punto 1, pero reduciendo el número de nodos de . . . Read more
El nombre predeterminado del archivo de salida del trabajo de AWS Glue comienza con jr_. Cuando hago referencia a estos registros en Cloud Watch logstream, es muy difícil encontrar un trabajo específico. ¿Alguien sabe si puedo renombrarlos o agregar un prefijo/sufijo?