es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: ALLENNLP

Bigrams y colocaciones en Python para lograr la siguiente salida en Python.

tokenizedword = nltk.regexp_tokenize(textcontent, pattern = r’\w*’, gaps = False) tokenizedwords = [x.lower() for x in tokenizedword if x != ”] tokenizedwordsbigrams=list(nltk.bigrams(tokenizedwords)) stop_words= set(stopwords.words(‘english’)) tokenizednonstopwordsbigrams=[(w1,w2) for w1 , w2 in tokenizedwordsbigrams if (w1 not in stop_words) and (w2 not in stop_words)] cfd_bigrams=nltk.ConditionalFreqDist(tokenizednonstopwordsbigrams) mostfrequentwordafter=cfd_bigrams[word].most_common(3) tokenizedwords = nltk.Text(tokenizedwords) collocationwords = tokenizedwords.collocation_list() return mostfrequentwordafter . . . Read more

Valor esperado str, bytes o objeto os.PathLike, no DataFrame.

Intenté cargar el archivo de incrustación para el análisis de partes del discurso con NLP. Pero muestra el siguiente error: “`none TypeError Traceback (most recent call last) <ipython-input-33-94170a7f0621> in <module>() 2 3 def get_coefs(word,<em>arr): return word, np.asarray(arr, dtype='float32') —-> 4 embeddings_index = dict(get_coefs(</em>o.split(" ")) for o in open(EMBEDDING_FILE)) TypeError: expected . . . Read more

Cómo calcular la perplejidad de una frase utilizando los modelos de lenguaje con espaciado de huggingface?

Tengo varios modelos de lenguaje enmascarados (principalmente Bert, Roberta, Albert, Electra). También tengo un conjunto de datos de oraciones. ¿Cómo puedo obtener la perplejidad de cada oración? En la documentación de huggingface aquí, mencionan que la perplejidad “no está bien definida para modelos de lenguaje enmascarados como BERT”, aunque todavía . . . Read more

¿Existe alguna forma de ampliar el tamaño del vocabulario de los embeddings pre-entrenados (volver a entrenar los embeddings de palabras en un conjunto de datos personalizado sobre los existentes)?

TL;DR: ¿Existe alguna forma en Gensim de utilizar el Embedding existente y ampliar su vocabulario + aprendizaje al entrenarlo nuevamente en un conjunto de datos personalizado? Uno puede simplemente entrenar su propio Embedding en Gensim de la siguiente manera: from gensim.models import FastText # o cualquier otro modelo corpus = . . . Read more