Tengo un dataframe: df = spark.createDataFrame([ (‘manzana roja’, ‘plátano maduro’, 0.5), (‘otoño tardío’, ‘lluvia intensa’, 0.1), (‘hablar en voz alta’, ‘lugar tranquilo’, 0.9), (‘extremadamente peligroso’, ‘correr rápido’, 0.89) ], [“frase1”, “frase2”, “porcentaje_común”]) df.show() Resultado: +——————–+—————-+—————–+ | frase1| frase2|porcentaje_común| +——————–+—————-+—————–+ | manzana roja| plátano maduro| 0.5| | otoño tardío| lluvia intensa| . . . Read more
Si tengo pares clave-valor que comprometen el elemento (clave) y las ventas (valor): perno 45 perno 5 taladro 1 taladro 1 tornillo 1 tornillo 2 tornillo 3 Así que quiero obtener un RDD donde cada elemento sea la suma de los valores para cada clave única: perno 50 taladro 2 . . . Read more
Soy un traductor de español que traduce documentos de IT. Traduzca lo siguiente al español. No traduzca el código ni la salida en formato Markdown. Soy nuevo en Apache Spark y estoy luchando por hacer algo que parece simple. En Snowflake tienen el concepto de UDTF, básicamente una función de . . . Read more
Apache Hudi escribe cada archivo parquet de la siguiente manera: 0743209d-51cb-4233-a7cd-5bb712fba1ff-0_21-64-5300_20211117172738.parquet Estoy tratando de entender lo que representa cada sección del archivo. Aquí está mi comprensión actual, pero me gustaría confirmación y aclaración de alguien que pueda saber. 0743209d-51cb-4233-a7cd-5bb712fba1ff = grupo de archivos / nombre de archivo -0 = fragmento . . . Read more
Me he topado con un artículo que menciona el Spark S3 Magic Committer. ¿Podría alguien explicar qué son los Committers de Spark S3 y cómo se diferencia el Magic committer de los demás? ¿Cuándo debería usar uno en lugar de otro?