Tag: APACHE-SPARK-SQL
Lo que estoy haciendo es llenar los valores nulos dentro de un dataframe con una matriz en un entorno de transmisión. Mi situación es la siguiente: Necesito llenar el valor nulo con la matriz en la última fila, la que tiene el id = -1. Lo que he intentado hacer . . . Read more
Estoy tratando de anonimizar/hash una columna anidada, pero no he tenido éxito. El esquema se ve algo así: — abc: struct (nullable = true) | |– xyz: struct (nullable = true) | | |– abc123: string (nullable = true) | | |– services: struct (nullable = true) | | | . . . Read more
Obtengo un error del compilador si intento esto. Olvidando que necesito un triple igual en Spark. Sin embargo, si hago esto, obtengo la respuesta incorrecta pero sin errores. ¿Alguien puede explicar por qué las verificaciones en tiempo de compilación me ayudan en el primer caso pero no en el segundo?
Estoy escribiendo datos en Delta Lake que están particionados. El conjunto de datos es de alrededor de 10GB. Actualmente se tarda 30 minutos en escribir en el bucket de S3. df.write.partitionBy(“dateado”).format(“delta”).mode(“append”).save(“bucket_EU/temp”) ¿Cómo puedo optimizar esto mejor? ¿Hay alguna forma de reducir el tiempo?
Tengo una función UDF que toma la “clave” y devuelve el correspondiente “valor” del “name_dict”. from pyspark.sql import * from pyspark.sql.functions import udf, when, col name_dict = {‘James’: “manager”, ‘Robert’: ‘director’} func = udf(lambda name: name_dict[name]) El dataframe original: “James” y “Robert” están en el diccionario, pero “Michael” no lo . . . Read more