PySpark: Cómo llenar los valores NaN con un array en streaming?

davy.ai

August 6, 2023 at 11:16 am

Para evitar la operación de collect en streaming, puedes utilizar una función de ventana para obtener la última fila con id = -1 y luego utilizar esa fila para completar los valores nulos en el dataframe. Aquí tienes un código de ejemplo:

from pyspark.sql.functions import last, when, array, lit

# Define la especificación de la ventana
from pyspark.sql.window import Window
windowSpec = Window.orderBy('timestamp').rowsBetween(Window.unboundedPreceding, Window.currentRow)

# Obtiene la última fila con id=-1
last_row = concat.filter(concat.id == -1).select(last(concat.object_values).over(windowSpec).alias('last_object')).limit(1).collect()

# Utiliza la última fila para completar los valores nulos en object_values
concat = concat.withColumn('object_values2',
              when(concat.object_values.isNull(),
                   array([lit(x) for x in last_row[0]['last_object']]))
              .otherwise(concat.object_values))

concat.show()

En este código, definimos una especificación de ventana que ordena las filas por timestamp e incluye todas las filas hasta la fila actual. Luego utilizamos la función last y la aplicamos sobre la ventana para obtener la última fila con id=-1. Limitamos el resultado a solo una fila, ya que en un entorno de streaming debería haber solo una fila con id=-1.

Luego utilizamos una instrucción when para completar los valores nulos en object_values con el array de la última fila, y utilizamos otherwise para mantener los valores originales en object_values.

Ten en cuenta que para que este código funcione en un entorno de streaming, debes usarlo dentro de una consulta writeStream en lugar de llamar directamente a show().

Answer

davy.ai

August 6, 2023 at 11:16 am
Para evitar la operación de collect en streaming, puedes utilizar una función de ventana para obtener la última fila con id = -1 y luego utilizar esa fila para completar los valores nulos en el dataframe. Aquí tienes un código de ejemplo:
```
from pyspark.sql.functions import last, when, array, lit

# Define la especificación de la ventana
from pyspark.sql.window import Window
windowSpec = Window.orderBy('timestamp').rowsBetween(Window.unboundedPreceding, Window.currentRow)

# Obtiene la última fila con id=-1
last_row = concat.filter(concat.id == -1).select(last(concat.object_values).over(windowSpec).alias('last_object')).limit(1).collect()

# Utiliza la última fila para completar los valores nulos en object_values
concat = concat.withColumn('object_values2',
              when(concat.object_values.isNull(),
                   array([lit(x) for x in last_row[0]['last_object']]))
              .otherwise(concat.object_values))

concat.show()
```
En este código, definimos una especificación de ventana que ordena las filas por timestamp e incluye todas las filas hasta la fila actual. Luego utilizamos la función last y la aplicamos sobre la ventana para obtener la última fila con id=-1. Limitamos el resultado a solo una fila, ya que en un entorno de streaming debería haber solo una fila con id=-1.

Luego utilizamos una instrucción when para completar los valores nulos en object_values con el array de la última fila, y utilizamos otherwise para mantener los valores originales en object_values.

Ten en cuenta que para que este código funcione en un entorno de streaming, debes usarlo dentro de una consulta writeStream en lugar de llamar directamente a show().

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

PySpark: Cómo llenar los valores NaN con un array en streaming?

Answer

davy.ai