Tag: GENSIM

Cómo evitar que Gensim Simple Preprocess elimine los dígitos?

26 Jul, 2023 Programación 0

Estoy teniendo algunos problemas al preprocesar algunos datos con gensim.utils.simple_preprocess. En pocas palabras, noté que la función simple_preprocess elimina los dígitos de mi texto, ¡pero no quiero eso! Por ejemplo, tengo este código: import gensim from gensim.utils import simple_preprocess my_text = [“Estoy realizando la actividad número 1”, “En cambio, estoy . . . Read more

¿Cómo encontrar eficientemente conjuntos de pares de puntos con diferencias similares?

21 Jul, 2023 Programación 0

Estoy tratando de extraer automáticamente analogías de un modelo word2vec en Python. Mi enfoque básico es el siguiente: Enumerar todos los pares de vectores (n^2) y obtener su diferencia. Para cada diferencia, agregarla a cada vector (n^3) y encontrar la coincidencia más cercana al resultado (n^4). Restar el vector de . . . Read more

Función de puntuación de Gensim word2vec cuando hay palabras fuera del vocabulario.

19 Jul, 2023 Programación 0

Word2Vec no puede manejar palabras fuera del vocabulario (devuelve un error). Sin embargo, cuando intento la función de puntuación https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.score con frases que incluyen palabras fuera del vocabulario, sorprendentemente, no obtengo un error. ¿Por qué ocurre esto? ¡Gracias!

¿Subir un modelo pre-entrenado de vectores de palabras en idioma español y luego reentrenarlo con oraciones personalizadas? (GENSIM – FASTTEXT)

19 Jul, 2023 Programación 0

Estoy tratando de cargar vectores de palabras en español preentrenados y luego volver a entrenarlos con oraciones personalizadas: !pip install fasttext import fasttext import fasttext.util descargar vectores de palabras preentrenados en español fasttext.util.download_model(‘es’, if_exists=’ignore’) # Español ft = fasttext.load_model(‘cc.es.300.bin’) Pero una vez que intento actualizar el vocabulario, me da este . . . Read more

¿Funcionará bien LSA en un corpus de documentos de tamaños significativamente diferentes?

18 Jul, 2023 Programación 0

Tengo que evaluar las similitudes por pares de documentos de diferentes tamaños (desde 300 palabras hasta más de 200 mil palabras). Para hacerlo, he creado un procedimiento que utiliza el algoritmo LSA implementado en gensim. Incluye los siguientes pasos: preprocesamiento de documentos, creación de vectores BoW, aplicación de ponderación TF/IDF, . . . Read more

1 2 3 4

es.davy.ai

¿Tienes una pregunta?