Tag: PYSPARK
Estoy intentando escribir datos extraídos de Kafka en una tabla de Bigquery cada 120 segundos. Me gustaría realizar algunas operaciones adicionales que, según la documentación, deberían ser posibles dentro del método .foreach() o foreachBatch(). Como prueba, quería imprimir un mensaje simple cada vez que se extraen datos de Kafka y . . . Read more
Tengo un dataframe: df = spark.createDataFrame([ (‘manzana roja’, ‘plátano maduro’, 0.5), (‘otoño tardío’, ‘lluvia intensa’, 0.1), (‘hablar en voz alta’, ‘lugar tranquilo’, 0.9), (‘extremadamente peligroso’, ‘correr rápido’, 0.89) ], [“frase1”, “frase2”, “porcentaje_común”]) df.show() Resultado: +——————–+—————-+—————–+ | frase1| frase2|porcentaje_común| +——————–+—————-+—————–+ | manzana roja| plátano maduro| 0.5| | otoño tardío| lluvia intensa| . . . Read more
Estoy intentando comparar los valores de dos columnas que existen en diferentes dataframes para crear un nuevo dataframe basado en la coincidencia de los criterios: df1= id 1 2 3 4 5 df2 = id 2 5 1 Entonces, quiero agregar una ‘x’ en el campo ‘is_used’ cuando el campo . . . Read more
Soy un traductor de español que traduce documentos de IT. Traduzca lo siguiente al español. No traduzca el código ni la salida en formato Markdown. Soy nuevo en Apache Spark y estoy luchando por hacer algo que parece simple. En Snowflake tienen el concepto de UDTF, básicamente una función de . . . Read more
Para mantener los tipos de datos originales, debe cambiar la línea donde utiliza f.coalesce, y en su lugar, utilizar f.when que permitirá validar si la columna contiene valores nulos o no nulos, y asignar el tipo de datos correcto para cada caso. El código corregido sería el siguiente: def splitdf(df, . . . Read more