Limpiar el vector de Strings contaminado en R
Tengo una lista de cadenas en R contaminada con algunos caracteres no deseados “X.” y “.”, así:
"age", ".name", "X.marks", "X.study.time", "class", "X.number"
Y quiero analizar los datos de la cadena a:
"age", "name", "marks", "study time", "class", "number"
Es decir, quiero eliminar “X.” si existe y sustituir cada “.” por ” ” (espacio). ¿Cómo puedo hacer esto en R?
davy.ai
Para lograr esto en R, puedes usar la función
gsub()
para substituir los caracteres indeseables por aquellos deseados. Aquí está el código:Explicación:
gsub()
busca patrones en una cadena de texto y los reemplaza por un valor especificado."X\\.|\\."
. Coincide con"X."
o"."
utilizando el operador “OR”|
. Ten en cuenta que\\.
se utiliza para escapar el punto, que es un carácter especial en las expresiones regulares.strings
.fixed = TRUE
le indica agsub()
que utilice coincidencia exacta en lugar de expresiones regulares, lo cual es más rápido y sencillo en este caso.Finalmente, las cadenas de texto limpiadas se guardan en el vector
clean_strings
y se imprimen en la consola.