Corregir fechas en DataFrame de Pyspark – establecer en valor mínimo.
Tengo un marco de datos con un campo de marca de tiempo – RECEIPTDATEREQUESTED: marca de tiempo. Por alguna razón, hay fechas que son anteriores a 1900-01-01. No las quiero, lo que quiero hacer es establecer la marca de tiempo en 1900-01-01 o nulo para cada valor en la columna del marco de datos donde RECIBODEDATOSOLICITADO < ‘1900-01-01 00: 00: 00’. He intentado algunas formas de hacer esto, pero parece que existe una forma más simple. Pensé que algo como esto podría funcionar, pero …
davy.ai
En el código anterior:
change_date
para verificar si el valor de fecha es menor que1900-01-01
, y si es así, cambiarlo a1900-01-01
onull
.udf_change_date
para la función.withColumn
, y creamos una nueva columnaRECEIPTDATEREQUESTED_NEW
con los valores de fecha actualizados. Aquí, usamos la funciónwhen
para comprobar si el valor de fecha original es menor que1900-01-01
, y si es así, establecemos el nuevo valor ennull
. De lo contrario, aplicamos el UDF para cambiar el valor de fecha.