Tag: NLTK
Hola querido, tengo un problema con las stopwords de nltk: si hago un ciclo de verificación de stopwords en letra y no en palabra. ¿Cómo puedo cambiar este comportamiento? Un ejemplo: import pandas as pd import nltk stopword = nltk.corpus.stopwords.words(‘italian’) pd.set_option(‘display.max_colwidth’, None) df = pd.read_csv(‘esempioTweet.csv’, sep=’,’) def remove_stop(text): text = . . . Read more
Extrayendo la definición de diferentes palabras en cada oración texto = data[‘OmschrijvingSkillwithoutstopwords’].tolist() textos etiquetados = pos_tagsents(map(word_tokenize, texto)) data[‘pos’] = pos_tagsents(data[‘OmschrijvingSkillwithoutstopwords’].apply(word_tokenize).tolist()) data[‘Nombres’] = data[‘pos’].apply(lambda row: [i[0] for i in row if i[1] == ‘NN’]) data[‘Verbos’] = data[‘pos’].apply(lambda row: [i[0] for i in row if i[1] == ‘VB’]) data[‘Adj’] = data[‘pos’].apply(lambda row: . . . Read more
He hecho lo siguiente import nltk palabras = nltk.corpus.brown.words() freq = nltk.FreqDist(palabras) Y puedo encontrar la frecuencia de ciertas palabras en el corpus Brown, como freq[“the”] 62713 Pero ahora quiero poder encontrar la Distribución de Frecuencia de bigramas específicos. Así que luego intenté bigrams = nltk.bigrams(palabras) freqbig = nltk.FreqDist(bigrams) Pero . . . Read more
¿Cómo puedo imprimir solo los primeros 10 resultados de mi programa? Intenté crear una lista vacía pero no pude almacenar los resultados correctamente para luego imprimirlos. from nltk.corpus import brown user_input = input(‘Introduce una secuencia: ‘) #ADJ+NOUN+NOUN User_Input = user_input.split(‘+’) words = brown.tagged_words(tagset=’universal’) #para acceder a las etiquetas POS for . . . Read more
Soy nuevo en Python y no entiendo el propósito de la función list() en este fragmento de código: documents = [(list(movie_reviews.words(fileid)), category) for category in movie_reviews.categories() for fileid in movie_reviews.fileids(category)] El método words() ya devuelve una lista de palabras tokenizadas a partir de una cadena, y no veo ninguna diferencia . . . Read more