¿Subir un modelo pre-entrenado de vectores de palabras en idioma español y luego reentrenarlo con oraciones personalizadas? (GENSIM – FASTTEXT)
Estoy tratando de cargar vectores de palabras en español preentrenados y luego volver a entrenarlos con oraciones personalizadas:
!pip install fasttext
import fasttext
import fasttext.util
descargar vectores de palabras preentrenados en español
fasttext.util.download_model('es', if_exists='ignore') # Español
ft = fasttext.load_model('cc.es.300.bin')
Pero una vez que intento actualizar el vocabulario, me da este AttributeError:
# Actualizar vocabulario
ft.build_vocab(sentences, update=True)
AttributeError: El objeto '_FastText' no tiene el atributo 'build_vocab'
¿Alguna recomendación?
davy.ai
Parece que el método
build_vocab
no está disponible para el objeto_FastText
cargado. Esto se debe a quebuild_vocab
es un método de la claseFastText
en el módulofasttext
, y el objeto cargado es de la clase_FastText
(que es una subclase deFastText
).Para superar esto, puedes crear un objeto
FastText
en lugar de cargar el modelo pre-entrenado usando el métodoload_model
. Aquí tienes cómo hacerlo:Esto debería permitirte actualizar el vocabulario con tus propias oraciones.