Tag: DELTA-LAKE

Actualice la tabla Delta en base a una condición de otra tabla.

21 Jul, 2023 Programación 0

Quiero actualizar la tabla Delta basada en la condición que coincida con otra tabla. A continuación se muestra mi SQL y quiero convertirlo en una actualización de delta. update emp set empid = (select emp_id from dept where empname=”xyz”) where emp.deptid in (select dept_id from emp where emp_dept=”IT”) Intenté algo . . . Read more

Cargando JSON en bruto en Delta Lake (Como en Snowflake)

21 Jul, 2023 Programación 0

Estoy probando Delta Lake para un caso de uso simple que es muy fácil en Snowflake, pero me está costando mucho entender si se puede hacer, y mucho menos hacerlo realmente. Quiero poder cargar un archivo JSON “en bruto”, sin especificar un esquema, y quiero poder consultarlo y desglosarlo más . . . Read more

Cómo convertir un archivo Parquet a un archivo Delta

20 Jul, 2023 Programación 0

Estoy tratando de convertir un archivo parquet en un archivo delta en el mismo directorio. Cuando cambio de directorio, se crean los archivos, pero cuando intento crear el archivo delta en el mismo directorio, no funciona. Los registros que se crean solo incluyen confirmaciones. {“commitInfo”:{“timestamp”:1639462569886,”userId”:”1873721116118433″,”userName”:”¡eliminado!”,”operation”:”WRITE”,”operationParameters”:{“mode”:”Append”,”partitionBy”:[“Código del socio comprador”]},”notebook”:{“notebookId”:”3864076797603349″},”clusterId”:”0713-055328-sonar10″,”readVersion”:0,”isolationLevel”:”SnapshotIsolation”,”isBlindAppend”:true,”operationMetrics”:{“numFiles”:”0″,”numOutputBytes”:”0″,”numOutputRows”:”0″}}} df1.write.format(“delta”).mode(“append”).save(“/data/dbo/csm_currencyratetype/BuyerPartner_Code=190935/”)

La velocidad de escritura en las tablas Delta aumenta significativamente después de copiarla en Databricks.

19 Jul, 2023 Programación 0

Estoy fusionando un dataframe de PySpark en una tabla Delta. El delta de salida está particionado por FECHA. La siguiente consulta tarda 30s en ejecutarse: query = DeltaTable.forPath(spark, RUTA_DE_LA_TABLA).alias( "actual" ).merge( spark_df.alias("sdf"), "actual.FECHA >= fecha_actual() – INTERVALO 1 DÍAS AND (actual.feat1 = sdf.feat1) AND (actual.TIEMPO = sdf.TIEMPO) AND (actual.feat2 = . . . Read more

actualizar (fusionar) delta con streaming estructurado de spark

17 Jul, 2023 Programación 0

Necesito insertar/actualizar datos en tiempo real (con transmisión estructurada de Spark) en Python. Estos datos se leen en tiempo real (formato csv) y luego se escriben como una tabla delta (aquí queremos actualizar los datos, por eso usamos merge into desde delta). Estoy usando el motor delta con Databricks. He . . . Read more

1 2 3 4 … 7

es.davy.ai

¿Tienes una pregunta?