Tag: APACHE-SPARK

Cómo utilizar la misma sesión de Spark en otro módulo.

31 May, 2023 Programación 0

Tengo que ejecutar dos módulos en Airflow con dos tareas. Cada tarea tiene un módulo PySpark que realiza algunas operaciones de spark. El segundo módulo utiliza el dataframe creado en la sesión anterior y continúa con sus operaciones. ¿Cómo podemos lograr lo mismo con la misma SparkSession inicializada? He intentado . . . Read more

Ordenar el RDD de Spark en base al ordenamiento en otro RDD.

31 May, 2023 Programación 0

Tengo un RDD con cadenas como esta (ordenado de una manera específica): ["A","B","C","D"] Y otro RDD con listas como esta: ["C","B","F","K"], [“B”,”A”,”Z”,”M”], [“X”,”T”,”D”,”C”] Me gustaría ordenar los elementos en cada lista del segundo RDD en función del orden en que aparecen en el primer RDD. El orden de los elementos . . . Read more

Agrupe por Id y obtenga múltiples registros para múltiples columnas en Scala.

31 May, 2023 Programación 0

Tengo un dataframe de chispa como se muestra a continuación. val df = Seq((“a”,1,1400),(“a”,1,1250),(“a”,2,1200),(“a”,4,1250),(“a”,4,1200),(“a”,4,1100),(“b”,2,2500),(“b”,2,1250),(“b”,2,500),(“b”,4,250),(“b”,4,200),(“b”,4,100),(“b”,4,100),(“b”,5,800)). toDF(“id”,”jerarquía”,”cantidad”) Estoy trabajando en el lenguaje de scala para hacer uso de este dataframe y tratando de obtener el resultado como se muestra a continuación. val df = Seq((“a”,1,1400),(“a”,4,1250),(“a”,4,1200),(“a”,4,1100),(“b”,2,2500),(“b”,2,1250),(“b”,4,250),(“b”,4,200),(“b”,4,100),(“b”,5,800)). toDF(“id”,”jerarquía”,”cantidad”) Reglas: Agrupado por id, si min(hierarchy)==1 . . . Read more

Convertir fila en columnas en un dataframe de Pyspark.

30 May, 2023 Programación 0

Mi actual dataframe de pyspark es así: Región Ubicación Mes Servicios Tipo valores_en_millones valores_en_porcentaje USA USA 1/1/2021 ABC DC 101537.553 34.775 Europa Italia 2/1/2021 ABC DC 434404.87 44.653 Europa España 2/1/2021 ABC DC 895057.332 21.925 Asia India 3/1/2021 ABC DC 211963.21 27.014 Mi dataframe deseado debería tener esta forma: Región . . . Read more

Problemas al instalar paquete JAR para el proyecto Smolder de Databricks Labs.

30 May, 2023 Programación 0

Intenté seguir las instrucciones del archivo readme aquí: https://github.com/databrickslabs/smolder Cuando ejecuto las importaciones en Azure Databricks con tiempo de ejecución 8.4 (que incluye Apache Spark 3.1.2, Scala 2.12), obtengo el siguiente error: import com.databricks.labs.smolder.functions.parsehl7message command-2210167876712732:1: error: object labs is not a member of package com.databricks import com.databricks.labs.smolder.functions.parsehl7message Seguí los pasos . . . Read more

1 … 94 95 96 … 105

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK

Cómo utilizar la misma sesión de Spark en otro módulo.

Ordenar el RDD de Spark en base al ordenamiento en otro RDD.

Agrupe por Id y obtenga múltiples registros para múltiples columnas en Scala.

Convertir fila en columnas en un dataframe de Pyspark.

Problemas al instalar paquete JAR para el proyecto Smolder de Databricks Labs.