Cómo asignar un número ordinal en una columna de marco de datos en pyspark por índices.

23 May, 2023 Programación 0

Tengo un dataframe:

df = spark.createDataFrame([
(‘manzana roja’, ‘plátano maduro’, 0.5),
(‘otoño tardío’, ‘lluvia intensa’, 0.1),
(‘hablar en voz alta’, ‘lugar tranquilo’, 0.9),
(‘extremadamente peligroso’, ‘correr rápido’, 0.89)
], [“frase1”, “frase2”, “porcentaje_común”])
df.show()

Resultado:

Y quiero numerar cada frase, por ejemplo, manzana roja – 1.1, plátano maduro-1.2. Es decir, la primera fila es la primera columna (1.1) y la primera fila es la segunda columna (1.2), luego: otoño tardío – 2.1, lluvia intensa – 2.2, etc.

Idealmente, sería algo así:

+——+——-+—————–+
| frase1| frase2|porcentaje_común|
+——+——-+—————–+
| 1.1| 1.2| 0.5|
| 2.1| 2.2| 0.1|
| 3.1| 3.2| 0.9|
| 4.1| 4.2| 0.89|

es.davy.ai

¿Tienes una pregunta?

Cómo asignar un número ordinal en una columna de marco de datos en pyspark por índices.

Answer

davy.ai