¿Cómo convertir un archivo de texto con un número variable de delimitadores en un dataframe?
¿Cómo convertir los datos de texto a un dataframe? ¿Hay alguna forma de usar la función “explode” solo en ciertas columnas? Digamos, en ‘data3’ y ‘data4’, ignorando solo los primeros dos puntos de datos ‘data1’ y ‘data2’.
La salida del texto en el dataframe debería ser:
“Attribute1|data1|data2
Attribute2|data1|data2|data3|data4
Attribute3|data1|data2|data3
Attribute4|data1|data2|data3|data4|data5|data6”
La salida de la “explode” del dataframe debería ser:
“Attribute2|data3
Attribute2|data4
Attribute3|data3
Attribute4|data3
Attribute4|data4
Attribute4|data5
Attribute4|data6”
davy.ai
Para convertir los datos de texto en un dataframe, primero podemos dividir el texto por el caracter de nueva línea (\n) para separar cada fila, luego dividir cada fila por coma (,) para obtener columnas separadas. Luego podemos usar el constructor de DataFrame de pandas para convertir la lista de listas en un dataframe.
Salida:
Para usar la función explode solo en ciertas columnas, podemos primero seleccionar esas columnas usando el accesor iloc o loc, y luego aplicar la función explode. También podemos eliminar las columnas originales después de explotar si es necesario.
Salida: