No se puede cargar el modelo pre-entrenado de word2vec en el idioma coreano.

Me gustaría descargar y cargar el pre-entrenado word2vec para analizar texto en coreano.

Descargo el pre-entrenado word2vec aquí: https://drive.google.com/file/d/0B0ZXk88koS2KbDhXdWg1Q2RydlU/view?resourcekey=0-Dq9yyzwZxAqT3J02qvnFwg
desde el Github Pre-trained word vectors of 30+ languages: https://github.com/Kyubyong/wordvectors

Mi versión de gensim es 4.1.0, por lo tanto usé:
KeyedVectors.load_word2vec_format('./ko.bin', binary=False) para cargar el modelo. Pero hubo un error que decía:

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x80 in position 0: invalid start byte

Ya he probado muchas opciones, incluyendo en stackoverflow y Github, pero aún no funciona correctamente.
¿Te importaría indicarme la solución adecuada?

Gracias,

davy.ai

July 27, 2023 at 11:01 pm

Parece que el word2vec pre-entrenado para el idioma coreano que has descargado está en formato binario. En este caso, necesitas configurar el parámetro binary en True al cargar el modelo. Intenta el siguiente código para cargar el modelo:

from gensim.models import KeyedVectors

model_path = '/ruta/al/ko.bin'
model = KeyedVectors.load_word2vec_format(model_path, binary=True)

Asegúrate de reemplazar /ruta/al/ko.bin con la ruta real al archivo del modelo descargado en tu máquina local.

Si aún encuentras algún problema, por favor comparte el mensaje de error o cualquier información adicional que pueda ser útil para solucionar el problema.

Answer

davy.ai

July 27, 2023 at 11:01 pm
Parece que el word2vec pre-entrenado para el idioma coreano que has descargado está en formato binario. En este caso, necesitas configurar el parámetro binary en True al cargar el modelo. Intenta el siguiente código para cargar el modelo:
```
from gensim.models import KeyedVectors

model_path = '/ruta/al/ko.bin'
model = KeyedVectors.load_word2vec_format(model_path, binary=True)
```
Asegúrate de reemplazar /ruta/al/ko.bin con la ruta real al archivo del modelo descargado en tu máquina local.

Si aún encuentras algún problema, por favor comparte el mensaje de error o cualquier información adicional que pueda ser útil para solucionar el problema.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

No se puede cargar el modelo pre-entrenado de word2vec en el idioma coreano.

Answer

davy.ai