Tag: ALLENNLP

Agrupando palabras juntas al examinar la similitud de vectores (Python)

28 Jul, 2023 Programación 0

Tengo una lista larga con el formato mylist =[([256, 408, 147, 628], ‘ezis’), ([628, 526, 236, 676], ‘camera’), ([526, 876, 676, 541], ‘camera’), ([567, 731, 724, 203], ‘size’), ([822, 187, 256, 172], ‘camera’), ([489, 628, 214, 428], ‘esu’), ([648, 487, 487, 338], ‘take’), ([487, 606, 338, 428], ‘pictur’),…..] La lista . . . Read more

Bigrams y colocaciones en Python para lograr la siguiente salida en Python.

28 Jul, 2023 Programación 0

tokenizedword = nltk.regexp_tokenize(textcontent, pattern = r’\w*’, gaps = False) tokenizedwords = [x.lower() for x in tokenizedword if x != ”] tokenizedwordsbigrams=list(nltk.bigrams(tokenizedwords)) stop_words= set(stopwords.words(‘english’)) tokenizednonstopwordsbigrams=[(w1,w2) for w1 , w2 in tokenizedwordsbigrams if (w1 not in stop_words) and (w2 not in stop_words)] cfd_bigrams=nltk.ConditionalFreqDist(tokenizednonstopwordsbigrams) mostfrequentwordafter=cfd_bigrams[word].most_common(3) tokenizedwords = nltk.Text(tokenizedwords) collocationwords = tokenizedwords.collocation_list() return mostfrequentwordafter . . . Read more

Valor esperado str, bytes o objeto os.PathLike, no DataFrame.

28 Jul, 2023 Programación 0

Intenté cargar el archivo de incrustación para el análisis de partes del discurso con NLP. Pero muestra el siguiente error: “`none TypeError Traceback (most recent call last) <ipython-input-33-94170a7f0621> in <module>() 2 3 def get_coefs(word,<em>arr): return word, np.asarray(arr, dtype='float32') —-> 4 embeddings_index = dict(get_coefs(</em>o.split(" ")) for o in open(EMBEDDING_FILE)) TypeError: expected . . . Read more

Cómo calcular la perplejidad de una frase utilizando los modelos de lenguaje con espaciado de huggingface?

28 Jul, 2023 Programación 0

Tengo varios modelos de lenguaje enmascarados (principalmente Bert, Roberta, Albert, Electra). También tengo un conjunto de datos de oraciones. ¿Cómo puedo obtener la perplejidad de cada oración? En la documentación de huggingface aquí, mencionan que la perplejidad “no está bien definida para modelos de lenguaje enmascarados como BERT”, aunque todavía . . . Read more

¿Existe alguna forma de ampliar el tamaño del vocabulario de los embeddings pre-entrenados (volver a entrenar los embeddings de palabras en un conjunto de datos personalizado sobre los existentes)?

28 Jul, 2023 Programación 0

TL;DR: ¿Existe alguna forma en Gensim de utilizar el Embedding existente y ampliar su vocabulario + aprendizaje al entrenarlo nuevamente en un conjunto de datos personalizado? Uno puede simplemente entrenar su propio Embedding en Gensim de la siguiente manera: from gensim.models import FastText # o cualquier otro modelo corpus = . . . Read more

1 … 6 7 8 … 30

es.davy.ai

¿Tienes una pregunta?

Tag: ALLENNLP

Agrupando palabras juntas al examinar la similitud de vectores (Python)

Bigrams y colocaciones en Python para lograr la siguiente salida en Python.

Valor esperado str, bytes o objeto os.PathLike, no DataFrame.

Cómo calcular la perplejidad de una frase utilizando los modelos de lenguaje con espaciado de huggingface?

¿Existe alguna forma de ampliar el tamaño del vocabulario de los embeddings pre-entrenados (volver a entrenar los embeddings de palabras en un conjunto de datos personalizado sobre los existentes)?