Tag: APACHE-SPARK-SQL

PySpark: Cómo llenar los valores NaN con un array en streaming?

06 Aug, 2023 Programación 0

Lo que estoy haciendo es llenar los valores nulos dentro de un dataframe con una matriz en un entorno de transmisión. Mi situación es la siguiente: Necesito llenar el valor nulo con la matriz en la última fila, la que tiene el id = -1. Lo que he intentado hacer . . . Read more

Cómo modificar una columna anidada de tipo struct en un dataframe de pyspark

06 Aug, 2023 Programación 0

Estoy tratando de anonimizar/hash una columna anidada, pero no he tenido éxito. El esquema se ve algo así: — abc: struct (nullable = true) | |– xyz: struct (nullable = true) | | |– abc123: string (nullable = true) | | |– services: struct (nullable = true) | | | . . . Read more

El compilador de Spark Scala no se queja de la diferencia entre el doble y triple igual en este caso.

06 Aug, 2023 Programación 0

Obtengo un error del compilador si intento esto. Olvidando que necesito un triple igual en Spark. Sin embargo, si hago esto, obtengo la respuesta incorrecta pero sin errores. ¿Alguien puede explicar por qué las verificaciones en tiempo de compilación me ayudan en el primer caso pero no en el segundo?

Optimización de escritura de Delta Lake

06 Aug, 2023 Programación 0

Estoy escribiendo datos en Delta Lake que están particionados. El conjunto de datos es de alrededor de 10GB. Actualmente se tarda 30 minutos en escribir en el bucket de S3. df.write.partitionBy(“dateado”).format(“delta”).mode(“append”).save(“bucket_EU/temp”) ¿Cómo puedo optimizar esto mejor? ¿Hay alguna forma de reducir el tiempo?

pyspark falla en la cláusula “when/otherwise” al utilizar udf.

06 Aug, 2023 Programación 0

Tengo una función UDF que toma la “clave” y devuelve el correspondiente “valor” del “name_dict”. from pyspark.sql import * from pyspark.sql.functions import udf, when, col name_dict = {‘James’: “manager”, ‘Robert’: ‘director’} func = udf(lambda name: name_dict[name]) El dataframe original: “James” y “Robert” están en el diccionario, pero “Michael” no lo . . . Read more

1 2 … 48

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK-SQL

PySpark: Cómo llenar los valores NaN con un array en streaming?

Cómo modificar una columna anidada de tipo struct en un dataframe de pyspark

El compilador de Spark Scala no se queja de la diferencia entre el doble y triple igual en este caso.

Optimización de escritura de Delta Lake

pyspark falla en la cláusula “when/otherwise” al utilizar udf.