Tengo que ejecutar dos módulos en Airflow con dos tareas. Cada tarea tiene un módulo PySpark que realiza algunas operaciones de spark. El segundo módulo utiliza el dataframe creado en la sesión anterior y continúa con sus operaciones. ¿Cómo podemos lograr lo mismo con la misma SparkSession inicializada? He intentado . . . Read more
Tengo un RDD con cadenas como esta (ordenado de una manera específica): ["A","B","C","D"] Y otro RDD con listas como esta: ["C","B","F","K"], [“B”,”A”,”Z”,”M”], [“X”,”T”,”D”,”C”] Me gustaría ordenar los elementos en cada lista del segundo RDD en función del orden en que aparecen en el primer RDD. El orden de los elementos . . . Read more
Tengo un dataframe de chispa como se muestra a continuación. val df = Seq((“a”,1,1400),(“a”,1,1250),(“a”,2,1200),(“a”,4,1250),(“a”,4,1200),(“a”,4,1100),(“b”,2,2500),(“b”,2,1250),(“b”,2,500),(“b”,4,250),(“b”,4,200),(“b”,4,100),(“b”,4,100),(“b”,5,800)). toDF(“id”,”jerarquía”,”cantidad”) Estoy trabajando en el lenguaje de scala para hacer uso de este dataframe y tratando de obtener el resultado como se muestra a continuación. val df = Seq((“a”,1,1400),(“a”,4,1250),(“a”,4,1200),(“a”,4,1100),(“b”,2,2500),(“b”,2,1250),(“b”,4,250),(“b”,4,200),(“b”,4,100),(“b”,5,800)). toDF(“id”,”jerarquía”,”cantidad”) Reglas: Agrupado por id, si min(hierarchy)==1 . . . Read more
Mi actual dataframe de pyspark es así: Región Ubicación Mes Servicios Tipo valores_en_millones valores_en_porcentaje USA USA 1/1/2021 ABC DC 101537.553 34.775 Europa Italia 2/1/2021 ABC DC 434404.87 44.653 Europa España 2/1/2021 ABC DC 895057.332 21.925 Asia India 3/1/2021 ABC DC 211963.21 27.014 Mi dataframe deseado debería tener esta forma: Región . . . Read more
Intenté seguir las instrucciones del archivo readme aquí: https://github.com/databrickslabs/smolder Cuando ejecuto las importaciones en Azure Databricks con tiempo de ejecución 8.4 (que incluye Apache Spark 3.1.2, Scala 2.12), obtengo el siguiente error: import com.databricks.labs.smolder.functions.parsehl7message command-2210167876712732:1: error: object labs is not a member of package com.databricks import com.databricks.labs.smolder.functions.parsehl7message Seguí los pasos . . . Read more