es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: PYSPARK

Método foreach() con errores de Spark Streaming.

Estoy intentando escribir datos extraídos de Kafka en una tabla de Bigquery cada 120 segundos. Me gustaría realizar algunas operaciones adicionales que, según la documentación, deberían ser posibles dentro del método .foreach() o foreachBatch(). Como prueba, quería imprimir un mensaje simple cada vez que se extraen datos de Kafka y . . . Read more

Cómo asignar un número ordinal en una columna de marco de datos en pyspark por índices.

Tengo un dataframe: df = spark.createDataFrame([ (‘manzana roja’, ‘plátano maduro’, 0.5), (‘otoño tardío’, ‘lluvia intensa’, 0.1), (‘hablar en voz alta’, ‘lugar tranquilo’, 0.9), (‘extremadamente peligroso’, ‘correr rápido’, 0.89) ], [“frase1”, “frase2”, “porcentaje_común”]) df.show() Resultado: +——————–+—————-+—————–+ | frase1| frase2|porcentaje_común| +——————–+—————-+—————–+ | manzana roja| plátano maduro| 0.5| | otoño tardío| lluvia intensa| . . . Read more