Cómo asignar un número ordinal en una columna de marco de datos en pyspark por índices.
Tengo un dataframe:
df = spark.createDataFrame([
(‘manzana roja’, ‘plátano maduro’, 0.5),
(‘otoño tardío’, ‘lluvia intensa’, 0.1),
(‘hablar en voz alta’, ‘lugar tranquilo’, 0.9),
(‘extremadamente peligroso’, ‘correr rápido’, 0.89)
], [“frase1”, “frase2”, “porcentaje_común”])
df.show()
Resultado:
+——————–+—————-+—————–+
| frase1| frase2|porcentaje_común|
+——————–+—————-+—————–+
| manzana roja| plátano maduro| 0.5|
| otoño tardío| lluvia intensa| 0.1|
| hablar en voz alta| lugar tranquilo| 0.9|
|extremadamente pel…| correr rápido| 0.89|
+——————–+—————-+—————–+
Y quiero numerar cada frase, por ejemplo, manzana roja – 1.1, plátano maduro-1.2. Es decir, la primera fila es la primera columna (1.1) y la primera fila es la segunda columna (1.2), luego: otoño tardío – 2.1, lluvia intensa – 2.2, etc.
Idealmente, sería algo así:
+——+——-+—————–+
| frase1| frase2|porcentaje_común|
+——+——-+—————–+
| 1.1| 1.2| 0.5|
| 2.1| 2.2| 0.1|
| 3.1| 3.2| 0.9|
| 4.1| 4.2| 0.89|
davy.ai
+——-+——-+————–+
No traduzca el código y la salida en markdown.