es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: WORD2VEC

Transferencia de aprendizaje de vectores de palabras

Quiero adaptar vectores de palabras ya existentes (por ejemplo, de Spacy) y volver a entrenarlos en un conjunto de datos específico de un dominio bastante limitado. El problema es que no puedo encontrar una forma de tomar los vectores ya entrenados y adaptarlos a mis nuevos datos. Hasta ahora he . . . Read more

Clasificación de texto utilizando Word2Vec y etiquetas Pos. La clasificación de texto es una tarea fundamental en el procesamiento del lenguaje natural (NLP, por sus siglas en inglés), y una forma efectiva de lograrla es mediante el uso de técnicas de aprendizaje automático como Word2Vec y etiquetas de partes del discurso (Pos). Word2Vec es un modelo de representación de palabras en forma de vectores numéricos, donde las palabras similares se encuentran en un espacio vectorial cercano. Este enfoque permite capturar la semántica de las palabras y determinar relaciones entre ellas. Para la clasificación de texto, se puede utilizar Word2Vec para convertir palabras en vectores y luego utilizarlos como características en los algoritmos de aprendizaje automático. Por otro lado, las etiquetas de partes del discurso son etiquetas gramaticales que indican la función sintáctica de las palabras en una oración. Estas etiquetas incluyen sustantivos, verbos, adjetivos, adverbios, entre otros. Al utilizar las etiquetas Pos en la clasificación de texto, es posible capturar información sobre la estructura gramatical y sintáctica de las oraciones, lo que puede mejorar la precisión del modelo. En resumen, la combinación de Word2Vec y etiquetas Pos permite construir modelos de clasificación de texto más precisos y eficientes. Al utilizar la semántica de las palabras y la información sintáctica, estos modelos pueden identificar patrones y relaciones dentro del texto, lo que es clave en la tarea de clasificación.

Tengo un conjunto de datos médicos como: Texto: “debilidad, diarrea, dolor de cuello” Objetivo: “X.1, Y.1”, que es un diagnóstico codificado. También estoy utilizando Word2Vec preentrenado y etiquetado de posición gramatical. Por ejemplo, la palabra “debilidad” tiene un vector de palabra como: [0.2 0.04 …….. 0.05] (300 dimensiones) Y la . . . Read more

No se puede cargar el modelo pre-entrenado de word2vec en el idioma coreano.

Me gustaría descargar y cargar el pre-entrenado word2vec para analizar texto en coreano. Descargo el pre-entrenado word2vec aquí: https://drive.google.com/file/d/0B0ZXk88koS2KbDhXdWg1Q2RydlU/view?resourcekey=0-Dq9yyzwZxAqT3J02qvnFwg desde el Github Pre-trained word vectors of 30+ languages: https://github.com/Kyubyong/wordvectors Mi versión de gensim es 4.1.0, por lo tanto usé: KeyedVectors.load_word2vec_format('./ko.bin', binary=False) para cargar el modelo. Pero hubo un error que . . . Read more

¿Es un bug en ReduceVocab() o me estoy perdiendo algo?

Aquí hay un fragmento de código de word2vec que he descargado de google word2vec.c: “`c++ // Reduce el vocabulario eliminando tokens infrecuentes void ReduceVocab() { int a, b = 0; unsigned int hash; for (a = 0; a < vocab_size; a++) if (vocab[a].cn > min_reduce) { vocab[b].cn = vocab[a].cn; vocab[b].word . . . Read more