Tengo una lista larga con el formato mylist =[([256, 408, 147, 628], ‘ezis’), ([628, 526, 236, 676], ‘camera’), ([526, 876, 676, 541], ‘camera’), ([567, 731, 724, 203], ‘size’), ([822, 187, 256, 172], ‘camera’), ([489, 628, 214, 428], ‘esu’), ([648, 487, 487, 338], ‘take’), ([487, 606, 338, 428], ‘pictur’),…..] La lista . . . Read more
tokenizedword = nltk.regexp_tokenize(textcontent, pattern = r’\w*’, gaps = False) tokenizedwords = [x.lower() for x in tokenizedword if x != ”] tokenizedwordsbigrams=list(nltk.bigrams(tokenizedwords)) stop_words= set(stopwords.words(‘english’)) tokenizednonstopwordsbigrams=[(w1,w2) for w1 , w2 in tokenizedwordsbigrams if (w1 not in stop_words) and (w2 not in stop_words)] cfd_bigrams=nltk.ConditionalFreqDist(tokenizednonstopwordsbigrams) mostfrequentwordafter=cfd_bigrams[word].most_common(3) tokenizedwords = nltk.Text(tokenizedwords) collocationwords = tokenizedwords.collocation_list() return mostfrequentwordafter . . . Read more
Intenté cargar el archivo de incrustación para el análisis de partes del discurso con NLP. Pero muestra el siguiente error: “`none TypeError Traceback (most recent call last) <ipython-input-33-94170a7f0621> in <module>() 2 3 def get_coefs(word,<em>arr): return word, np.asarray(arr, dtype='float32') —-> 4 embeddings_index = dict(get_coefs(</em>o.split(" ")) for o in open(EMBEDDING_FILE)) TypeError: expected . . . Read more
Tengo varios modelos de lenguaje enmascarados (principalmente Bert, Roberta, Albert, Electra). También tengo un conjunto de datos de oraciones. ¿Cómo puedo obtener la perplejidad de cada oración? En la documentación de huggingface aquí, mencionan que la perplejidad “no está bien definida para modelos de lenguaje enmascarados como BERT”, aunque todavía . . . Read more
TL;DR: ¿Existe alguna forma en Gensim de utilizar el Embedding existente y ampliar su vocabulario + aprendizaje al entrenarlo nuevamente en un conjunto de datos personalizado? Uno puede simplemente entrenar su propio Embedding en Gensim de la siguiente manera: from gensim.models import FastText # o cualquier otro modelo corpus = . . . Read more