Quiero actualizar la tabla Delta basada en la condición que coincida con otra tabla. A continuación se muestra mi SQL y quiero convertirlo en una actualización de delta. update emp set empid = (select emp_id from dept where empname=”xyz”) where emp.deptid in (select dept_id from emp where emp_dept=”IT”) Intenté algo . . . Read more
Estoy probando Delta Lake para un caso de uso simple que es muy fácil en Snowflake, pero me está costando mucho entender si se puede hacer, y mucho menos hacerlo realmente. Quiero poder cargar un archivo JSON “en bruto”, sin especificar un esquema, y quiero poder consultarlo y desglosarlo más . . . Read more
Estoy tratando de convertir un archivo parquet en un archivo delta en el mismo directorio. Cuando cambio de directorio, se crean los archivos, pero cuando intento crear el archivo delta en el mismo directorio, no funciona. Los registros que se crean solo incluyen confirmaciones. {“commitInfo”:{“timestamp”:1639462569886,”userId”:”1873721116118433″,”userName”:”¡eliminado!”,”operation”:”WRITE”,”operationParameters”:{“mode”:”Append”,”partitionBy”:[“Código del socio comprador”]},”notebook”:{“notebookId”:”3864076797603349″},”clusterId”:”0713-055328-sonar10″,”readVersion”:0,”isolationLevel”:”SnapshotIsolation”,”isBlindAppend”:true,”operationMetrics”:{“numFiles”:”0″,”numOutputBytes”:”0″,”numOutputRows”:”0″}}} df1.write.format(“delta”).mode(“append”).save(“/data/dbo/csm_currencyratetype/BuyerPartner_Code=190935/”)
Estoy fusionando un dataframe de PySpark en una tabla Delta. El delta de salida está particionado por FECHA. La siguiente consulta tarda 30s en ejecutarse: query = DeltaTable.forPath(spark, RUTA_DE_LA_TABLA).alias( "actual" ).merge( spark_df.alias("sdf"), "actual.FECHA >= fecha_actual() – INTERVALO 1 DÍAS AND (actual.feat1 = sdf.feat1) AND (actual.TIEMPO = sdf.TIEMPO) AND (actual.feat2 = . . . Read more
Necesito insertar/actualizar datos en tiempo real (con transmisión estructurada de Spark) en Python. Estos datos se leen en tiempo real (formato csv) y luego se escriben como una tabla delta (aquí queremos actualizar los datos, por eso usamos merge into desde delta). Estoy usando el motor delta con Databricks. He . . . Read more