Tag: PYSPARK

¿Cómo puedo agregar un nuevo campo a un JSON existente?

05 Aug, 2023 Programación 0

Convertí un dataframe a json utilizando toJSON() df.toJSON().collect() y este es el resultado que obtuve como salida [ {“alertId”:”abcd20″,”score”:1.23,”severity”:0.123}, {“alertId”:”abcd20″,”score”:1.23,”severity”:0.123}, {“alertId”:”abc20″,”score”:1.23,”severity”:0.123} ] Solo quiero agregar un campo (“alerts”) a este conjunto de json de la siguiente manera { “alerts”: [ {“alertId”:”abcd20″,”score”:1.23,”severity”:0.123}, {“alertId”:”abcd20″,”score”:1.23,”severity”:0.123}, {“alertId”:”abc20″,”score”:1.23,”severity”:0.123} ] } El esquema que quiero usar . . . Read more

Convertir el tipo “none” a datetime utilizando parser.parse

05 Aug, 2023 Programación 0

Estoy utilizando la siguiente función para convertir una cadena en fecha en PySpark: func = udf(lambda x: parser.parse(x), DateType()) Mi formato de fecha es: “22-Jan-2021 00:00” Aunque esta función no funciona con tipos None, tengo el siguiente DataFrame Spark: date —- “22-Jan-2021 00:00” “” “10-Feb-2020 14:00” Cuando aplico mi func . . . Read more

Optimización de Databricks Python

05 Aug, 2023 Programación 0

Necesito tu ayuda por favor, tengo un código simple en Python que enumera todos los campos en las tablas de todas las bases de datos que están en Databricks, hay aproximadamente 90 tablas y me gustaría guardar el resultado en un archivo txt o csv. Aquí está el código utilizado, . . . Read more

Añadir un nuevo elemento a un array anidado de estructuras en Pyspark.

05 Aug, 2023 Programación 0

Tengo un dataframe con el siguiente esquema utilizando pyspark: |– suborders: array (nullable = true) | |– element: struct (containsNull = true) | | |– trackingStatusHistory: array (nullable = true) | | | |– element: struct (containsNull = true) | | | | |– trackingStatusUpdatedAt: string (nullable = true) | . . . Read more

En PySpark SQL, convierta el formato de fecha de mm/dd/yy hh:mm o yyyy-mm-dd hh:mm:ss a yyyy-mm-dd hh:mm.

05 Aug, 2023 Programación 0

Tengo 2 formatos de fecha (MM/dd/yy HH:mm y yyyy-mm-dd HH:mm:ss) en la hora de inicio que necesitan convertirse al formato yyyy-mm-dd HH:mm. ¿Cómo puedo manejar ambos formatos de datos en una sola declaración SELECT a continuación para convertirlos al formato deseado? df1 = spark.sql("""select from_unixtime(unix_timestamp(strt_tm,'MM/dd/yy HH:mm'),'yyyy-mm-dd HH:mm) as starttime from . . . Read more

1 … 3 4 5 … 101

es.davy.ai

¿Tienes una pregunta?

Tag: PYSPARK

¿Cómo puedo agregar un nuevo campo a un JSON existente?

Convertir el tipo “none” a datetime utilizando parser.parse

Optimización de Databricks Python

Añadir un nuevo elemento a un array anidado de estructuras en Pyspark.

En PySpark SQL, convierta el formato de fecha de mm/dd/yy hh:mm o yyyy-mm-dd hh:mm:ss a yyyy-mm-dd hh:mm.