Tag: PYSPARK

Método foreach() con errores de Spark Streaming.

23 May, 2023 Programación 0

Estoy intentando escribir datos extraídos de Kafka en una tabla de Bigquery cada 120 segundos. Me gustaría realizar algunas operaciones adicionales que, según la documentación, deberían ser posibles dentro del método .foreach() o foreachBatch(). Como prueba, quería imprimir un mensaje simple cada vez que se extraen datos de Kafka y . . . Read more

Cómo asignar un número ordinal en una columna de marco de datos en pyspark por índices.

23 May, 2023 Programación 0

Pyspark: emparejar columnas de dos dataframes diferentes y añadir valor.

22 May, 2023 Programación 0

Estoy intentando comparar los valores de dos columnas que existen en diferentes dataframes para crear un nuevo dataframe basado en la coincidencia de los criterios: df1= id 1 2 3 4 5 df2 = id 2 5 1 Entonces, quiero agregar una ‘x’ en el campo ‘is_used’ cuando el campo . . . Read more

Pyspark transforma cada fila de un dataframe en múltiples filas.

22 May, 2023 Programación 0

Soy un traductor de español que traduce documentos de IT. Traduzca lo siguiente al español. No traduzca el código ni la salida en formato Markdown. Soy nuevo en Apache Spark y estoy luchando por hacer algo que parece simple. En Snowflake tienen el concepto de UDTF, básicamente una función de . . . Read more

¿Cómo puedo obtener el tipo de datos original de los valores después de usar f.coalesce en PySpark?

22 May, 2023 Programación 0

Para mantener los tipos de datos originales, debe cambiar la línea donde utiliza f.coalesce, y en su lugar, utilizar f.when que permitirá validar si la columna contiene valores nulos o no nulos, y asignar el tipo de datos correcto para cada caso. El código corregido sería el siguiente: def splitdf(df, . . . Read more

1 … 98 99 100 101

es.davy.ai

¿Tienes una pregunta?

Tag: PYSPARK

Método foreach() con errores de Spark Streaming.

Cómo asignar un número ordinal en una columna de marco de datos en pyspark por índices.

Pyspark: emparejar columnas de dos dataframes diferentes y añadir valor.

Pyspark transforma cada fila de un dataframe en múltiples filas.

¿Cómo puedo obtener el tipo de datos original de los valores después de usar f.coalesce en PySpark?