Tag: AWS-GLUE-SPARK

El código de pyspark falla con el error “Ocurrió un error al llamar a z:com.amazonaws.services.glue.DynamicFrame.apply. list#5451 []”.

05 Aug, 2023 Programación 0

Estoy escribiendo un trabajo de aws glue (código pyspark) utilizando la Transformación SQL. Estoy obteniendo un error con scala.MatchError: list#5252 [] (de la clase org.apache.spark.sql.catalyst.expressions.ListQuery). Hay una tabla llamada tbl1 y cuando excluyo esta tabla de la consulta, funciona correctamente, pero tan pronto como se utiliza tbl1, se arroja el . . . Read more

GlueJobRunnerSession no está autorizado para realizar: lakeformation:GetDataAccess en el recurso.

02 Aug, 2023 Programación 0

Estoy intentando usar la función glueContext.purge_table en mi trabajo de AWS Glue. Cada vez que se ejecuta el trabajo, se produce el siguiente error: Se produjo un error al llamar a o82.purgeTable. : java.lang.RuntimeException: class com.amazonaws.services.gluejobexecutor.model.AccessDeniedException: El usuario: arn:aws:sts::012345678:assumed-role/XYZ/GlueJobRunnerSession no tiene autorización para realizar lakeformation:GetDataAccess en el recurso: arn:aws:glue:us-east-1:MICHIGAN_DEFAULT_CATALOG_ID_RANDOMIZED:table/database/table (Servicio: . . . Read more

Trabajo de Spark Glue fallando debido a que no hay espacio disponible en el dispositivo.

26 Jul, 2023 Programación 0

Estoy tratando de ejecutar el trabajo de pegado de chispa con una configuración de 2.x donde se utilizan 50 trabajadores y 16 núcleos, pero todavía el trabajo falla con no hay espacio en el dispositivo. Siempre apunta a un ejecutor al final y luego arroja el problema de espacio. También . . . Read more

Glue Dynamic Frame es mucho más lento que el Spark regular.

25 Jul, 2023 Programación 0

En la imagen siguiente, ejecutamos el mismo trabajo glue con tres configuraciones diferentes en cuanto a cómo escribimos en S3: Utilizamos un dynamic frame para escribir en S3 Utilizamos un pure spark frame para escribir en S3 Igual que en el punto 1, pero reduciendo el número de nodos de . . . Read more

AWS Glue – Agregar prefijo al nombre del archivo de salida del trabajo

16 Jul, 2023 Programación 0

El nombre predeterminado del archivo de salida del trabajo de AWS Glue comienza con jr_. Cuando hago referencia a estos registros en Cloud Watch logstream, es muy difícil encontrar un trabajo específico. ¿Alguien sabe si puedo renombrarlos o agregar un prefijo/sufijo?

1 2

es.davy.ai

¿Tienes una pregunta?