Tag: DELTA-LAKE

Optimización de escritura de Delta Lake

06 Aug, 2023 Programación 0

Estoy escribiendo datos en Delta Lake que están particionados. El conjunto de datos es de alrededor de 10GB. Actualmente se tarda 30 minutos en escribir en el bucket de S3. df.write.partitionBy(“dateado”).format(“delta”).mode(“append”).save(“bucket_EU/temp”) ¿Cómo puedo optimizar esto mejor? ¿Hay alguna forma de reducir el tiempo?

¿Es posible integrar AWS Sagemaker y Delta Lake?

04 Aug, 2023 Programación 0

¿Es posible integrar AWS SageMaker y Delta Lake? Gracias, Ramabadran

Databricks – sobrescribirEsquema

02 Aug, 2023 Programación 0

En múltiples ocasiones he tenido un problema al actualizar una tabla delta en Databricks donde la sobrescritura del esquema falla la primera vez, pero luego tiene éxito la segunda vez. La solución a mi problema fue simplemente ejecutarlo nuevamente y no puedo reproducirlo en este momento. Si vuelve a ocurrir, . . . Read more

Leer archivos específicos de versión de Delta Lake

29 Jul, 2023 Programación 0

Quiero leer los datos delta después de un cierto momento/timestamp/versión. La lógica aquí sugiere leer todos los datos y luego leer la versión específica, y luego encontrar el delta. Como mis datos son enormes, preferiría no leer todos los datos y, de alguna manera, ser capaz de leer solo los . . . Read more

Fusionar con múltiples condiciones en DeltaTable utilizando Pyspark

28 Jul, 2023 Programación 0

Construí un proceso utilizando Delta Table para actualizar/incluir mis datos con la clave ID_CLIENT e ID_PRODUCT, pero estoy obteniendo el siguiente error: Combinación con múltiples filas coincidentes ¿Es posible realizar la combinación con múltiples condiciones? tabela_spec.alias("current") \ .merge(dfrn.alias("update"), "current.id_client = update.id_client AND current.id_product = update.id_product") \ .whenMatchedUpdateAll().whenNotMatchedInsertAll() \ .execute()

1 2 … 7

es.davy.ai

¿Tienes una pregunta?