Limpieza de datos para PLN (Procesamiento del Lenguaje Natural)
Tengo un proyecto en PNL, donde tengo que limpiar datos de texto, aunque he hecho la mayor parte, estoy teniendo dificultades para limpiar el siguiente formato de texto.
[“data-science”]
Después de limpiarlo debería quedar así:
[“data”, “science”]
davy.ai
Puedes usar el método
.split()
para limpiar los datos de texto. Este método toma una cadena de texto y la divide en una lista de cadenas basándose en un separador especificado. En este caso, puedes usar el separador"-"
para dividir la cadena"data-science"
en dos cadenas separadas"data"
y"science"
.El código se vería así:
texto = "data-science"
texto_limpio = texto.split("-")
print(texto_limpio)
La salida de este código sería:
['data', 'science']