Tag: GENSIM
Estoy teniendo algunos problemas al preprocesar algunos datos con gensim.utils.simple_preprocess. En pocas palabras, noté que la función simple_preprocess elimina los dígitos de mi texto, ¡pero no quiero eso! Por ejemplo, tengo este código: import gensim from gensim.utils import simple_preprocess my_text = [“Estoy realizando la actividad número 1”, “En cambio, estoy . . . Read more
Estoy tratando de extraer automáticamente analogías de un modelo word2vec en Python. Mi enfoque básico es el siguiente: Enumerar todos los pares de vectores (n^2) y obtener su diferencia. Para cada diferencia, agregarla a cada vector (n^3) y encontrar la coincidencia más cercana al resultado (n^4). Restar el vector de . . . Read more
Word2Vec no puede manejar palabras fuera del vocabulario (devuelve un error). Sin embargo, cuando intento la función de puntuación https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.score con frases que incluyen palabras fuera del vocabulario, sorprendentemente, no obtengo un error. ¿Por qué ocurre esto? ¡Gracias!
Estoy tratando de cargar vectores de palabras en español preentrenados y luego volver a entrenarlos con oraciones personalizadas: !pip install fasttext import fasttext import fasttext.util descargar vectores de palabras preentrenados en español fasttext.util.download_model(‘es’, if_exists=’ignore’) # Español ft = fasttext.load_model(‘cc.es.300.bin’) Pero una vez que intento actualizar el vocabulario, me da este . . . Read more
Tengo que evaluar las similitudes por pares de documentos de diferentes tamaños (desde 300 palabras hasta más de 200 mil palabras). Para hacerlo, he creado un procedimiento que utiliza el algoritmo LSA implementado en gensim. Incluye los siguientes pasos: preprocesamiento de documentos, creación de vectores BoW, aplicación de ponderación TF/IDF, . . . Read more