Tag: PYSPARK
Quiero poder configurar las siguientes variables de entorno al enviar un trabajo a través de dataproc submit: SPARK_HOME PYSPARK_PYTHON SPARKCONFDIR HADOOPCONFDIR ¿Cómo puedo lograr eso?
He escrito un dag de argo para activar un trabajo de spark en recursión hasta que se cumpla la condición. Tengo un parámetro de contador que debe incrementarse en 1 después de cada finalización exitosa del trabajo de spark. Pero esto no está sucediendo. Aquí está el fragmento de mi . . . Read more
Versión: DBR 8.4 | Spark 3.1.2 Estoy intentando obtener las primeras 500 filas por partición, pero puedo ver en el plan de consulta que se está ordenando el conjunto de datos completo (50K filas por partición) antes de filtrar las filas que me interesan. max_rank = 500 ranking_order = Window.partitionBy([‘category’, . . . Read more
Estoy escribiendo un trabajo de aws glue (código pyspark) utilizando la Transformación SQL. Estoy obteniendo un error con scala.MatchError: list#5252 [] (de la clase org.apache.spark.sql.catalyst.expressions.ListQuery). Hay una tabla llamada tbl1 y cuando excluyo esta tabla de la consulta, funciona correctamente, pero tan pronto como se utiliza tbl1, se arroja el . . . Read more
Soy nuevo en Snowflake y muy ingenuo en cuanto a Spark. ¿Existe alguna referencia o buen ejemplo de cómo se escribe datos desde un dataframe de Spark a una etapa con nombre en Snowflake? ¡Agradezco tu ayuda!