es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK

Cómo asignar un número ordinal en una columna de marco de datos en pyspark por índices.

Tengo un dataframe: df = spark.createDataFrame([ (‘manzana roja’, ‘plátano maduro’, 0.5), (‘otoño tardío’, ‘lluvia intensa’, 0.1), (‘hablar en voz alta’, ‘lugar tranquilo’, 0.9), (‘extremadamente peligroso’, ‘correr rápido’, 0.89) ], [“frase1”, “frase2”, “porcentaje_común”]) df.show() Resultado: +——————–+—————-+—————–+ | frase1| frase2|porcentaje_común| +——————–+—————-+—————–+ | manzana roja| plátano maduro| 0.5| | otoño tardío| lluvia intensa| . . . Read more

Spark Scala suma de valores por clave única.

Si tengo pares clave-valor que comprometen el elemento (clave) y las ventas (valor): perno 45 perno 5 taladro 1 taladro 1 tornillo 1 tornillo 2 tornillo 3 Así que quiero obtener un RDD donde cada elemento sea la suma de los valores para cada clave única: perno 50 taladro 2 . . . Read more

¿Qué representa cada sección del nombre de archivo Parquet escrito con Apache Hudi?

Apache Hudi escribe cada archivo parquet de la siguiente manera: 0743209d-51cb-4233-a7cd-5bb712fba1ff-0_21-64-5300_20211117172738.parquet Estoy tratando de entender lo que representa cada sección del archivo. Aquí está mi comprensión actual, pero me gustaría confirmación y aclaración de alguien que pueda saber. 0743209d-51cb-4233-a7cd-5bb712fba1ff = grupo de archivos / nombre de archivo -0 = fragmento . . . Read more