¿Alguien puede ayudarme con este problema? Tengo una tabla delta “orders”. Esta tabla se carga con 1000 registros utilizando el archivo delta. Ahora estamos recibiendo un archivo JSON en tiempo real que está añadiendo datos a esta tabla. Dataframe de lectura de transmisión orderInputDF: from pyspark.sql.functions import * orderInputDF = . . . Read more
Tengo una fuente de datos como la siguiente: order_id,order_date,order_customer_id,order_status 1,2013-07-25 00:00:00.0,11599,CERRADO 2,2013-07-25 00:00:00.0,256,PENDIENTE_PAGO 3,2013-07-25 00:00:00.0,12111,COMPLETO 4,2013-07-25 00:00:00.0,8827,CERRADO Estoy tratando de convertir a formato mm/dd/yyyy solo para las órdenes CERRADO utilizando las siguientes consultas, pero obtengo un resultado nulo. ¿Puede ayudarme a obtener el formato de fecha requerido usando DSL o . . . Read more
¿Cómo obtener df3 a partir de df1 y df2? Hay una coincidencia si df2.b está en la lista de elementos de df1.b —————- ————– ——————————- | a | b | | b | c | | a | b | c | —————- ————– => ——————————- | 2 | [3,4] . . . Read more
Tengo dos DFs df1: +—+—–+——–+ |key|price| date| +—+—–+——–+ | 1| 1.0|20210101| | 2| 2.0|20210101| | 3| 3.0|20210101| +—+—–+——–+ df2: +—+—–+ |key|price| +—+—–+ | 1| 1.1| | 2| 2.2| | 3| 3.3| +—+—–+ Me gustaría reemplazar los valores de la columna ‘price’ de ‘df1’ con los valores de ‘price’ de ‘df2’ . . . Read more
Para los cálculos, ya he creado este dataframe: df1: +————–+——+————+ |name |MG |questions | +————–+——+————+ |toto |MG1 |[Q1, Q2] | |toto |MG3 |[Q4, Q6, Q7]| |toto-123 |MG1 |[Q1, Q2] | |toto-456 |MG1 |[Q1, Q2] | |titi |MG1 |[Q1, Q2] | |… |… |… | +————–+——+————+ Hasta ahora, esto fue suficiente, . . . Read more