es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: DELTA-LAKE

Actualice la tabla Delta en base a una condición de otra tabla.

Quiero actualizar la tabla Delta basada en la condición que coincida con otra tabla. A continuación se muestra mi SQL y quiero convertirlo en una actualización de delta. update emp set empid = (select emp_id from dept where empname=”xyz”) where emp.deptid in (select dept_id from emp where emp_dept=”IT”) Intenté algo . . . Read more

Cargando JSON en bruto en Delta Lake (Como en Snowflake)

Estoy probando Delta Lake para un caso de uso simple que es muy fácil en Snowflake, pero me está costando mucho entender si se puede hacer, y mucho menos hacerlo realmente. Quiero poder cargar un archivo JSON “en bruto”, sin especificar un esquema, y quiero poder consultarlo y desglosarlo más . . . Read more

Cómo convertir un archivo Parquet a un archivo Delta

Estoy tratando de convertir un archivo parquet en un archivo delta en el mismo directorio. Cuando cambio de directorio, se crean los archivos, pero cuando intento crear el archivo delta en el mismo directorio, no funciona. Los registros que se crean solo incluyen confirmaciones. {“commitInfo”:{“timestamp”:1639462569886,”userId”:”1873721116118433″,”userName”:”¡eliminado!”,”operation”:”WRITE”,”operationParameters”:{“mode”:”Append”,”partitionBy”:[“Código del socio comprador”]},”notebook”:{“notebookId”:”3864076797603349″},”clusterId”:”0713-055328-sonar10″,”readVersion”:0,”isolationLevel”:”SnapshotIsolation”,”isBlindAppend”:true,”operationMetrics”:{“numFiles”:”0″,”numOutputBytes”:”0″,”numOutputRows”:”0″}}} df1.write.format(“delta”).mode(“append”).save(“/data/dbo/csm_currencyratetype/BuyerPartner_Code=190935/”)

La velocidad de escritura en las tablas Delta aumenta significativamente después de copiarla en Databricks.

Estoy fusionando un dataframe de PySpark en una tabla Delta. El delta de salida está particionado por FECHA. La siguiente consulta tarda 30s en ejecutarse: query = DeltaTable.forPath(spark, RUTA_DE_LA_TABLA).alias( "actual" ).merge( spark_df.alias("sdf"), "actual.FECHA >= fecha_actual() – INTERVALO 1 DÍAS AND (actual.feat1 = sdf.feat1) AND (actual.TIEMPO = sdf.TIEMPO) AND (actual.feat2 = . . . Read more