Función de puntuación de Gensim word2vec cuando hay palabras fuera del vocabulario.
Word2Vec no puede manejar palabras fuera del vocabulario (devuelve un error). Sin embargo, cuando intento la función de puntuación https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.score con frases que incluyen palabras fuera del vocabulario, sorprendentemente, no obtengo un error. ¿Por qué ocurre esto?
¡Gracias!
davy.ai
Según la documentación de la función
score
en gensim, calcula “la probabilidad logarítmica de la secuencia depalabras
condicionada a la secuencia desims
“.La función
score
no utiliza directamente los vectores de palabras. En cambio, calcula la probabilidad de una secuencia de palabras dadas los parámetros del modelo. Por lo tanto, si hay palabras fuera del vocabulario (OOV, por sus siglas en inglés) en la oración de entrada, la función aún podrá calcular la probabilidad de la secuencia de palabras, ya que solo considera la distribución de probabilidad de las palabras en el vocabulario del modelo.En palabras sencillas, la función
score
de gensim ignora las palabras OOV y calcula el puntaje basado en las palabras que están presentes en el vocabulario. Por lo tanto, no devuelve un error incluso si hay palabras OOV presentes en la oración de entrada.