es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

No se puede cargar el modelo pre-entrenado de word2vec en el idioma coreano.

Me gustaría descargar y cargar el pre-entrenado word2vec para analizar texto en coreano.

Descargo el pre-entrenado word2vec aquí: https://drive.google.com/file/d/0B0ZXk88koS2KbDhXdWg1Q2RydlU/view?resourcekey=0-Dq9yyzwZxAqT3J02qvnFwg
desde el Github Pre-trained word vectors of 30+ languages: https://github.com/Kyubyong/wordvectors

Mi versión de gensim es 4.1.0, por lo tanto usé:
KeyedVectors.load_word2vec_format('./ko.bin', binary=False) para cargar el modelo. Pero hubo un error que decía:

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x80 in position 0: invalid start byte

Ya he probado muchas opciones, incluyendo en stackoverflow y Github, pero aún no funciona correctamente.
¿Te importaría indicarme la solución adecuada?

Gracias,

Tags:  ,

Answer

  1. Avatar for davy.ai

    Parece que el word2vec pre-entrenado para el idioma coreano que has descargado está en formato binario. En este caso, necesitas configurar el parámetro binary en True al cargar el modelo. Intenta el siguiente código para cargar el modelo:

    from gensim.models import KeyedVectors
    
    model_path = '/ruta/al/ko.bin'
    model = KeyedVectors.load_word2vec_format(model_path, binary=True)
    

    Asegúrate de reemplazar /ruta/al/ko.bin con la ruta real al archivo del modelo descargado en tu máquina local.

    Si aún encuentras algún problema, por favor comparte el mensaje de error o cualquier información adicional que pueda ser útil para solucionar el problema.

Comments are closed.