es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK-SQL

Optimización de escritura de Delta Lake

Estoy escribiendo datos en Delta Lake que están particionados. El conjunto de datos es de alrededor de 10GB. Actualmente se tarda 30 minutos en escribir en el bucket de S3. df.write.partitionBy(“dateado”).format(“delta”).mode(“append”).save(“bucket_EU/temp”) ¿Cómo puedo optimizar esto mejor? ¿Hay alguna forma de reducir el tiempo?

pyspark falla en la cláusula “when/otherwise” al utilizar udf.

Tengo una función UDF que toma la “clave” y devuelve el correspondiente “valor” del “name_dict”. from pyspark.sql import * from pyspark.sql.functions import udf, when, col name_dict = {‘James’: “manager”, ‘Robert’: ‘director’} func = udf(lambda name: name_dict[name]) El dataframe original: “James” y “Robert” están en el diccionario, pero “Michael” no lo . . . Read more