Tag: PYSPARK

Cómo modificar una columna anidada de tipo struct en un dataframe de pyspark

06 Aug, 2023 Programación 0

Estoy tratando de anonimizar/hash una columna anidada, pero no he tenido éxito. El esquema se ve algo así: — abc: struct (nullable = true) | |– xyz: struct (nullable = true) | | |– abc123: string (nullable = true) | | |– services: struct (nullable = true) | | | . . . Read more

Optimización de escritura de Delta Lake

06 Aug, 2023 Programación 0

Estoy escribiendo datos en Delta Lake que están particionados. El conjunto de datos es de alrededor de 10GB. Actualmente se tarda 30 minutos en escribir en el bucket de S3. df.write.partitionBy(“dateado”).format(“delta”).mode(“append”).save(“bucket_EU/temp”) ¿Cómo puedo optimizar esto mejor? ¿Hay alguna forma de reducir el tiempo?

pyspark falla en la cláusula “when/otherwise” al utilizar udf.

06 Aug, 2023 Programación 0

Tengo una función UDF que toma la “clave” y devuelve el correspondiente “valor” del “name_dict”. from pyspark.sql import * from pyspark.sql.functions import udf, when, col name_dict = {‘James’: “manager”, ‘Robert’: ‘director’} func = udf(lambda name: name_dict[name]) El dataframe original: “James” y “Robert” están en el diccionario, pero “Michael” no lo . . . Read more

Leer datos de AWS S3 utilizando pyspark y python. (Leer todas las columnas: también la columna partitioned)

06 Aug, 2023 Programación 0

He guardado el dataframe de Spark en AWS S3 en formato Parquet, particionando por la columna “channel_name”. A continuación se muestra el código que utilizé para guardar en S3: df.write.option(“header”,True) \ .partitionBy(“channel_name”) \ .mode(“overwrite”) \ .parquet(“s3://ruta/”) channel_name start_timestamp value Outlier TEMP 2021-07-19 07:27:51 21 false TEMP 2021-07-19 08:21:05 24 false . . . Read more

Cambiar el tipo de dato de una columna en pyspark

06 Aug, 2023 Programación 0

Tengo una columna que tiene una fecha en el formato de MM/dd/YYYY HH:MM:SS AM/PM. Pero actualmente el formato está en tipo string. Al cargar estos datos en una tabla de Oracle, me está apareciendo un error de conversión de tipo de String a tipo Fecha. Intenté usar las funciones to_date() . . . Read more

1 2 3 … 101

es.davy.ai

¿Tienes una pregunta?

Tag: PYSPARK

Cómo modificar una columna anidada de tipo struct en un dataframe de pyspark

Optimización de escritura de Delta Lake

pyspark falla en la cláusula “when/otherwise” al utilizar udf.

Leer datos de AWS S3 utilizando pyspark y python. (Leer todas las columnas: también la columna partitioned)

Cambiar el tipo de dato de una columna en pyspark