es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: DELTA-LAKE

Optimización de escritura de Delta Lake

Estoy escribiendo datos en Delta Lake que están particionados. El conjunto de datos es de alrededor de 10GB. Actualmente se tarda 30 minutos en escribir en el bucket de S3. df.write.partitionBy(“dateado”).format(“delta”).mode(“append”).save(“bucket_EU/temp”) ¿Cómo puedo optimizar esto mejor? ¿Hay alguna forma de reducir el tiempo?

Databricks – sobrescribirEsquema

En múltiples ocasiones he tenido un problema al actualizar una tabla delta en Databricks donde la sobrescritura del esquema falla la primera vez, pero luego tiene éxito la segunda vez. La solución a mi problema fue simplemente ejecutarlo nuevamente y no puedo reproducirlo en este momento. Si vuelve a ocurrir, . . . Read more

Leer archivos específicos de versión de Delta Lake

Quiero leer los datos delta después de un cierto momento/timestamp/versión. La lógica aquí sugiere leer todos los datos y luego leer la versión específica, y luego encontrar el delta. Como mis datos son enormes, preferiría no leer todos los datos y, de alguna manera, ser capaz de leer solo los . . . Read more

Fusionar con múltiples condiciones en DeltaTable utilizando Pyspark

Construí un proceso utilizando Delta Table para actualizar/incluir mis datos con la clave ID_CLIENT e ID_PRODUCT, pero estoy obteniendo el siguiente error: Combinación con múltiples filas coincidentes ¿Es posible realizar la combinación con múltiples condiciones? tabela_spec.alias("current") \ .merge(dfrn.alias("update"), "current.id_client = update.id_client AND current.id_product = update.id_product") \ .whenMatchedUpdateAll().whenNotMatchedInsertAll() \ .execute()