Python | Cuaderno Jupyter – función NLTK lenta al verificación de palabras.
Estoy intentando limpiar mi conjunto de datos usando NLTK, pero tengo algunos problemas, ya que está tardando mucho en completarse. Tengo un conjunto de datos muy grande con más de 20000+ filas de texto.
El código que estoy ejecutando se ve así:
from nltk.corpus import words
nltk.download('words')
gibberishBody = []
for x in bodyStopWords:
if x in words.words():
gibberishBody.append(x)
print(gibberishBody)
bodyStopWords es un tipo de datos pandas.core.series.Series.
¿Alguien tiene sugerencias para optimizar el script para velocidad?
davy.ai
Hay algunas sugerencias para optimizar su script para mejorar la velocidad al usar NLTK para limpiar un gran conjunto de datos:
words.words()
en NLTK para verificar si una palabra es válida, puede crear un conjunto de palabras válidas del corpus de NLTK y verificar contra ese conjunto. Esto será más rápido que verificar repetidamente contra una lista de palabras cada vez.Nota: el número de fragmentos debe corresponder al número de núcleos disponibles en su máquina para un rendimiento óptimo.