Tag: PYSPARK
Estoy tratando de anonimizar/hash una columna anidada, pero no he tenido éxito. El esquema se ve algo así: — abc: struct (nullable = true) | |– xyz: struct (nullable = true) | | |– abc123: string (nullable = true) | | |– services: struct (nullable = true) | | | . . . Read more
Estoy escribiendo datos en Delta Lake que están particionados. El conjunto de datos es de alrededor de 10GB. Actualmente se tarda 30 minutos en escribir en el bucket de S3. df.write.partitionBy(“dateado”).format(“delta”).mode(“append”).save(“bucket_EU/temp”) ¿Cómo puedo optimizar esto mejor? ¿Hay alguna forma de reducir el tiempo?
Tengo una función UDF que toma la “clave” y devuelve el correspondiente “valor” del “name_dict”. from pyspark.sql import * from pyspark.sql.functions import udf, when, col name_dict = {‘James’: “manager”, ‘Robert’: ‘director’} func = udf(lambda name: name_dict[name]) El dataframe original: “James” y “Robert” están en el diccionario, pero “Michael” no lo . . . Read more
He guardado el dataframe de Spark en AWS S3 en formato Parquet, particionando por la columna “channel_name”. A continuación se muestra el código que utilizé para guardar en S3: df.write.option(“header”,True) \ .partitionBy(“channel_name”) \ .mode(“overwrite”) \ .parquet(“s3://ruta/”) channel_name start_timestamp value Outlier TEMP 2021-07-19 07:27:51 21 false TEMP 2021-07-19 08:21:05 24 false . . . Read more
Tengo una columna que tiene una fecha en el formato de MM/dd/YYYY HH:MM:SS AM/PM. Pero actualmente el formato está en tipo string. Al cargar estos datos en una tabla de Oracle, me está apareciendo un error de conversión de tipo de String a tipo Fecha. Intenté usar las funciones to_date() . . . Read more