Tag: DELTA-LAKE

Cómo asignar un valor predeterminado en Deltalake

28 Jul, 2023 Programación 0

Tengo el siguiente ddl para la tabla de clientes CREATE TABLE customer ( name string NOT NULL ,id string NOT NULL DEFAULT ‘No ID’ ,age INT ) using delta Al crear la tabla en deltalake, tengo problemas con la palabra clave “default”. ¿Alguien puede ayudarme a definir el valor predeterminado . . . Read more

Protocolo Spark Delta no se puede recuperar.

27 Jul, 2023 Programación 0

Estoy intentando eliminar un par de particiones de una tabla delta y luego escribir en ella, pero cuando lo hago, obtengo el siguiente error: La clase de usuario generó una excepción: java.lang.IllegalStateException: No se pudo recuperar el protocolo de su tabla Delta al reconstruir la versión: 1. ¿Eliminó manualmente archivos . . . Read more

Optimización/Vaciado de la tabla Delta

25 Jul, 2023 Programación 0

Tengo archivos siendo escritos por un trabajo de Kubernetes (ejecutándose localmente) en un contenedor de ADLS gen2 en forma de tabla Delta (Spark en Kubernetes, lo cual me ayuda a escribir tablas delta en ADLS). Los archivos son numerosos y fluyen cada hora (archivos pequeños y grandes) y queremos optimizar/vaciar . . . Read more

Obteniendo un error al crear una tabla de Hive utilizando una tabla Delta (con formato de parquet como base).

25 Jul, 2023 Programación 0

Obtengo una salida extraña cuando intento crear una tabla de Hive sobre Delta. Spark: 2.4.7 Delta: 0.6.1 import java.io.File; import org.apache.spark.{SparkConf, SparkContext}; import org.apache.spark.sql.{SparkSession, SQLContext}; import io.delta.tables.*; import org.apache.spark.sql.functions; spark.conf.set(“spark.databricks.delta.symlinkFormatManifest.fileSystemCheck.enabled”, false); val df1 = “select col1,col2 from table1”; val df2 = spark.sql(sqlText=df_1); df_2.write.format(“delta”).mode(“overwrite”).save(“gs://<path>”); val deltaTable1 = DeltaTable.forPath(“gs://<path>”); deltaTable1.generate(“symlink_format_manifest”); CREATE EXTERNAL . . . Read more

Cómo manejar la opción mergeschema para diferentes tipos de datos en Databricks?

22 Jul, 2023 Programación 0

import org.apache.spark.sql.types._ import spark.implicits._ scala val data = Seq((“James”,”Sales”,34)) val df1 = data.toDF(“name”,”dept”,”age”) df1.printSchema() df1.write.option(“mergeSchema”, “true”).format(“delta”).save(“/location”) scala val data2 = Seq((“Tiger”,”Sales”,”34″) ) var df2 = data2.toDF(“name”,”dept”,”age”) df2.printSchema() df2.write.option(“mergeSchema”, “true”).format(“delta”).save(“/location”) df2.show(false) Cuando escribimos el dataframe df2, falla porque en la tabla delta, la columna age es de tipo IntegerType y en . . . Read more

1 2 3 … 7

es.davy.ai

¿Tienes una pregunta?