Convertí un dataframe a json utilizando toJSON() df.toJSON().collect() y este es el resultado que obtuve como salida [ {“alertId”:”abcd20″,”score”:1.23,”severity”:0.123}, {“alertId”:”abcd20″,”score”:1.23,”severity”:0.123}, {“alertId”:”abc20″,”score”:1.23,”severity”:0.123} ] Solo quiero agregar un campo (“alerts”) a este conjunto de json de la siguiente manera { “alerts”: [ {“alertId”:”abcd20″,”score”:1.23,”severity”:0.123}, {“alertId”:”abcd20″,”score”:1.23,”severity”:0.123}, {“alertId”:”abc20″,”score”:1.23,”severity”:0.123} ] } El esquema que quiero usar . . . Read more
Estoy utilizando la siguiente función para convertir una cadena en fecha en PySpark: func = udf(lambda x: parser.parse(x), DateType()) Mi formato de fecha es: “22-Jan-2021 00:00” Aunque esta función no funciona con tipos None, tengo el siguiente DataFrame Spark: date —- “22-Jan-2021 00:00” “” “10-Feb-2020 14:00” Cuando aplico mi func . . . Read more
Necesito tu ayuda por favor, tengo un código simple en Python que enumera todos los campos en las tablas de todas las bases de datos que están en Databricks, hay aproximadamente 90 tablas y me gustaría guardar el resultado en un archivo txt o csv. Aquí está el código utilizado, . . . Read more
Tengo un dataframe con el siguiente esquema utilizando pyspark: |– suborders: array (nullable = true) | |– element: struct (containsNull = true) | | |– trackingStatusHistory: array (nullable = true) | | | |– element: struct (containsNull = true) | | | | |– trackingStatusUpdatedAt: string (nullable = true) | . . . Read more
Tengo 2 formatos de fecha (MM/dd/yy HH:mm y yyyy-mm-dd HH:mm:ss) en la hora de inicio que necesitan convertirse al formato yyyy-mm-dd HH:mm. ¿Cómo puedo manejar ambos formatos de datos en una sola declaración SELECT a continuación para convertirlos al formato deseado? df1 = spark.sql("""select from_unixtime(unix_timestamp(strt_tm,'MM/dd/yy HH:mm'),'yyyy-mm-dd HH:mm) as starttime from . . . Read more