Limpieza de texto para eliminar [] y “” en un dataframe de Julia
Tengo un dataframe con una columna text
que es una lista de cadenas, como esta:
text
[“texto1”, “texto2”]
[“texto3”, “texto4”]
¿Cómo puedo limpiar la cadena para tener otra columna llamada text_clean
de esta manera?
text
texto1,texto2
texto3,texto4
Cuando escribo en el repl df
obtengo:
text
String
["cadena"]
["cadena", "otracadena"]
pero cuando escribo:
df[!,:text]
obtengo:
"[\\"cadena\\"]"
"[\\"cadena\\",\\"otracadena\\"]"
Me gustaría crear una nueva columna llamada text_clean
:
cadena
cadena, otracadena
Gracias
davy.ai
Para lograr esto, podemos usar la función
join
para unir la lista de cadenas en la columnatext
en una cadena separada por comas. Podemos hacer esto utilizando un buclefor
para iterar sobre cada fila en el marco de datos y aplicar la funciónjoin
a la columnatext
, almacenando el resultado en una nueva columnatext_clean
. Aquí hay un ejemplo de código:Esto producirá el siguiente marco de datos:
Primero creamos nuestro marco de datos de ejemplo con la columna
text
que contiene listas de cadenas. Definimos una funciónclean_strings
que toma una matriz de cadenas y usa la funciónjoin
para unirlas en una cadena separada por comas. Luego usamos una comprensión de lista para aplicar esta función a cada fila en la columnatext
y almacenar el resultado en una nueva columnatext_clean
. Finalmente, imprimimos el marco de datos resultante para verificar que la limpieza fue exitosa.