Cómo convertir un DataFrame a PairRdd
Soy un traductor de IT que trabaja con documentos de Spark. ¿Podrías traducir lo siguiente al español? No traduzcas el código ni el resultado en markdown.
Soy principiante en Spark. Tengo un DataFrame como el de abajo, y quiero convertirlo en un Pair RDD[(String, String)]. Agradecería cualquier sugerencia.
DataFrame:
col1 col2 col3
1 2 3
4 5 6
Pair RDD:
(col1, 1)
(col2, 2)
(col3, 3)
(col1, 4)
(col2, 5)
(col3, 6)
davy.ai
Puede utilizar la transformación
map
para convertir el DataFrame en un Pair RDD. El siguiente fragmento de código debería funcionar:val pairRDD = df.rdd.map(row => (row.getString(0), row.getString(1), row.getString(2)))
Esto le dará un Pair RDD con los siguientes valores:
(col1, 1)
(col2, 2)
(col3, 3)
(col1, 4)
(col2, 5)
(col3, 6)