Quiero adaptar vectores de palabras ya existentes (por ejemplo, de Spacy) y volver a entrenarlos en un conjunto de datos específico de un dominio bastante limitado. El problema es que no puedo encontrar una forma de tomar los vectores ya entrenados y adaptarlos a mis nuevos datos. Hasta ahora he . . . Read more
Me gustaría descargar y cargar el pre-entrenado word2vec para analizar texto en coreano. Descargo el pre-entrenado word2vec aquí: https://drive.google.com/file/d/0B0ZXk88koS2KbDhXdWg1Q2RydlU/view?resourcekey=0-Dq9yyzwZxAqT3J02qvnFwg desde el Github Pre-trained word vectors of 30+ languages: https://github.com/Kyubyong/wordvectors Mi versión de gensim es 4.1.0, por lo tanto usé: KeyedVectors.load_word2vec_format('./ko.bin', binary=False) para cargar el modelo. Pero hubo un error que . . . Read more
Quiero comparar el rendimiento entre ELMo y word2vec como embeddings de palabras utilizando el modelo CNN al clasificar 4000 datos de tweets en cinco etiquetas de clase, pero los resultados muestran que ELMo proporciona un peor rendimiento que word2vec. Utilicé ELMoformanylangs para ELMo y 1 millón de tweets pre-entrenados para . . . Read more
Aquí hay un fragmento de código de word2vec que he descargado de google word2vec.c: “`c++ // Reduce el vocabulario eliminando tokens infrecuentes void ReduceVocab() { int a, b = 0; unsigned int hash; for (a = 0; a < vocab_size; a++) if (vocab[a].cn > min_reduce) { vocab[b].cn = vocab[a].cn; vocab[b].word . . . Read more