Tag: PYSPARK

¿Cómo pasar variables de entorno en el comando de envío de dataproc?

05 Aug, 2023 Programación 0

Quiero poder configurar las siguientes variables de entorno al enviar un trabajo a través de dataproc submit: SPARK_HOME PYSPARK_PYTHON SPARKCONFDIR HADOOPCONFDIR ¿Cómo puedo lograr eso?

Cómo incrementar un contador en Argo Workflow?

05 Aug, 2023 Programación 0

He escrito un dag de argo para activar un trabajo de spark en recursión hasta que se cumpla la condición. Tengo un parámetro de contador que debe incrementarse en 1 después de cada finalización exitosa del trabajo de spark. Pero esto no está sucediendo. Aquí está el fragmento de mi . . . Read more

Spark solicita solo una clasificación parcial para row_number ().over ventana particionada.

05 Aug, 2023 Programación 0

Versión: DBR 8.4 | Spark 3.1.2 Estoy intentando obtener las primeras 500 filas por partición, pero puedo ver en el plan de consulta que se está ordenando el conjunto de datos completo (50K filas por partición) antes de filtrar las filas que me interesan. max_rank = 500 ranking_order = Window.partitionBy([‘category’, . . . Read more

El código de pyspark falla con el error “Ocurrió un error al llamar a z:com.amazonaws.services.glue.DynamicFrame.apply. list#5451 []”.

05 Aug, 2023 Programación 0

Estoy escribiendo un trabajo de aws glue (código pyspark) utilizando la Transformación SQL. Estoy obteniendo un error con scala.MatchError: list#5252 [] (de la clase org.apache.spark.sql.catalyst.expressions.ListQuery). Hay una tabla llamada tbl1 y cuando excluyo esta tabla de la consulta, funciona correctamente, pero tan pronto como se utiliza tbl1, se arroja el . . . Read more

Escribiendo desde un marco de datos de Spark a una etapa (stage) de Snowflake.

05 Aug, 2023 Programación 0

Soy nuevo en Snowflake y muy ingenuo en cuanto a Spark. ¿Existe alguna referencia o buen ejemplo de cómo se escribe datos desde un dataframe de Spark a una etapa con nombre en Snowflake? ¡Agradezco tu ayuda!

1 … 4 5 6 … 101

es.davy.ai

¿Tienes una pregunta?

Tag: PYSPARK

¿Cómo pasar variables de entorno en el comando de envío de dataproc?

Cómo incrementar un contador en Argo Workflow?

Spark solicita solo una clasificación parcial para row_number ().over ventana particionada.

El código de pyspark falla con el error “Ocurrió un error al llamar a z:com.amazonaws.services.glue.DynamicFrame.apply. list#5451 []”.

Escribiendo desde un marco de datos de Spark a una etapa (stage) de Snowflake.