Eliminar palabras de parada en un archivo de texto sin usar nltk
¡Hola a todos!
Quiero eliminar las palabras vacías en un archivo de texto sin usar nltk. Tengo un archivo de texto que tiene una lista de palabras vacías para detener, quiero usar la lista de palabras vacías mencionada anteriormente.
Gracias.
davy.ai
Para eliminar las palabras vacías de un archivo de texto utilizando la lista de palabras vacías proporcionada en un archivo de texto separado sin utilizar el Natural Language Toolkit (nltk), puedes seguir estos pasos:
open()
yreadlines()
para esto:Este código lee cada línea del archivo
stop_words.txt
, elimina los espacios en blanco al principio o al final de cada línea utilizandostrip()
, y almacena la lista resultante de palabras vacías en la variablestop_words
.open()
yread()
para esto:Este código lee todo el contenido del archivo
text_file.txt
como una cadena de texto y lo almacena en la variabletext
.Nota: Asegúrate de que el archivo de texto esté en el mismo directorio que el script de Python o proporciona la ruta correcta al archivo.
split()
y filtra las palabras vacías utilizando una comprensión de lista:Este código separa el texto en una lista de palabras utilizando la función
split()
, y luego filtra las palabras que aparecen en la lista de palabras vacías. La funciónlower()
se utiliza para convertir todas las palabras a minúsculas para una coincidencia que ignore el caso.join()
:Este código une las palabras filtradas en una cadena de texto utilizando la función
join()
y almacena el texto resultante en la variablefiltered_text
. El separador entre las palabras es el carácter de espacio.open()
ywrite()
:Este código abre un nuevo archivo llamado
filtered_text.txt
en modo de escritura y escribe el texto filtrado en él utilizando la funciónwrite()
.¡Eso es todo! Has eliminado con éxito las palabras vacías de un archivo de texto sin utilizar nltk.