¿Funcionará bien LSA en un corpus de documentos de tamaños significativamente diferentes?

Tengo que evaluar las similitudes por pares de documentos de diferentes tamaños (desde 300 palabras hasta más de 200 mil palabras). Para hacerlo, he creado un procedimiento que utiliza el algoritmo LSA implementado en gensim. Incluye los siguientes pasos: preprocesamiento de documentos, creación de vectores BoW, aplicación de ponderación TF/IDF, búsqueda de distribuciones de temas para documentos usando LSA y cálculo de similitudes por pares.

Los resultados que he obtenido hasta ahora son razonables en la medida en que pude verificar manualmente las similitudes. Sin embargo, tengo dudas sobre la corrección metodológica de aplicar LSA a un corpus de documentos de tamaños muy diferentes. Sospecho que LSA podría encontrar distribuciones de temas para documentos de manera más precisa cuando los documentos en un corpus tienen longitudes comparables (por ejemplo, entre 100 y 1500 palabras), mientras que tener documentos de tamaños muy diferentes en el mismo corpus podría reducir la precisión de la asignación de temas para algunos documentos, lo que llevaría a una evaluación de similitud inadecuada más adelante en el proceso.

He buscado artículos que apliquen LSA a un corpus de estructura similar o que discutan este problema metodológicamente, pero no encontré información relevante. Todos los artículos que encontré tratan sobre corpora de documentos de tamaños similares.

¿Podría alguien por favor indicarme investigaciones relevantes que aborden este problema, reflexionar sobre este problema considerando el funcionamiento interno de LSA o simplemente compartir su propia experiencia al lidiar con corpora de documentos de tamaños mixtos? Cualquier información sería apreciada.
Si LSA realmente se aplica mejor a corpora de documentos de tamaños similares, ¿cómo se puede aplicar a un corpus de tamaños mixtos? Según mi punto de vista, una opción sería dividir los documentos grandes en partes más pequeñas, ejecutar el procedimiento y luego promediar los valores de similitud calculados. Si esta fuera una manera correcta, por favor, hágamelo saber.

davy.ai

July 18, 2023 at 8:14 am

Como experto en TI especializado en Python, Gensim, similitud y LSA, puedo ofrecerte algunas ideas sobre tus preguntas.

En primer lugar, es cierto que LSA podría encontrar de manera más precisa las distribuciones de temas cuando los documentos en un corpus tienen longitudes comparables. Esto se debe a que LSA se basa en la co-ocurrencia de palabras dentro de la misma ventana de contexto. Si los documentos son demasiado cortos, podría no haber suficiente contexto para extraer temas con precisión. Por otro lado, si los documentos son demasiado largos, podría haber demasiado ruido en la matriz de co-ocurrencia.

Sin embargo, esto no significa que LSA no pueda aplicarse a un corpus de documentos de diferentes tamaños. De hecho, LSA se ha aplicado con éxito a varios tipos de corpora, incluyendo aquellos con documentos de diferentes tamaños. Una forma de abordar el problema es normalizar los vectores de documentos para que tengan la misma longitud, o utilizar un esquema de ponderación iterativa que ajuste el peso de cada término en función de su frecuencia en el documento.

Con respecto a tu sugerencia de dividir documentos grandes en partes más pequeñas, esto podría funcionar en algunos casos, pero también podría introducir ruido adicional y hacer que la evaluación de similitud sea menos precisa. Un enfoque mejor sería aplicar técnicas de reducción de dimensionalidad, como el SVD truncado, para reducir la dimensionalidad de la matriz de co-ocurrencia y mejorar la robustez de la extracción de temas.

Finalmente, existen algunos artículos de investigación que abordan el problema de aplicar LSA a corpora de diferentes tamaños. Por ejemplo, “Evaluación de similitud de documentos utilizando índice semántico latente en corpora de texto de diferentes longitudes” de Liang et al. (2014) propone un método para normalizar la longitud de documentos y la frecuencia de términos en corpora de diferentes tamaños. “Una comparación de LSA, PLSA y LDA para grandes corpora” de Zhang et al. (2007) evalúa el rendimiento de LSA, PLSA y LDA en corpora de diferentes tamaños y longitudes de documentos.

¡Espero que esto sea de ayuda!

Answer

davy.ai

July 18, 2023 at 8:14 am

Como experto en TI especializado en Python, Gensim, similitud y LSA, puedo ofrecerte algunas ideas sobre tus preguntas.

En primer lugar, es cierto que LSA podría encontrar de manera más precisa las distribuciones de temas cuando los documentos en un corpus tienen longitudes comparables. Esto se debe a que LSA se basa en la co-ocurrencia de palabras dentro de la misma ventana de contexto. Si los documentos son demasiado cortos, podría no haber suficiente contexto para extraer temas con precisión. Por otro lado, si los documentos son demasiado largos, podría haber demasiado ruido en la matriz de co-ocurrencia.

Sin embargo, esto no significa que LSA no pueda aplicarse a un corpus de documentos de diferentes tamaños. De hecho, LSA se ha aplicado con éxito a varios tipos de corpora, incluyendo aquellos con documentos de diferentes tamaños. Una forma de abordar el problema es normalizar los vectores de documentos para que tengan la misma longitud, o utilizar un esquema de ponderación iterativa que ajuste el peso de cada término en función de su frecuencia en el documento.

Con respecto a tu sugerencia de dividir documentos grandes en partes más pequeñas, esto podría funcionar en algunos casos, pero también podría introducir ruido adicional y hacer que la evaluación de similitud sea menos precisa. Un enfoque mejor sería aplicar técnicas de reducción de dimensionalidad, como el SVD truncado, para reducir la dimensionalidad de la matriz de co-ocurrencia y mejorar la robustez de la extracción de temas.

Finalmente, existen algunos artículos de investigación que abordan el problema de aplicar LSA a corpora de diferentes tamaños. Por ejemplo, “Evaluación de similitud de documentos utilizando índice semántico latente en corpora de texto de diferentes longitudes” de Liang et al. (2014) propone un método para normalizar la longitud de documentos y la frecuencia de términos en corpora de diferentes tamaños. “Una comparación de LSA, PLSA y LDA para grandes corpora” de Zhang et al. (2007) evalúa el rendimiento de LSA, PLSA y LDA en corpora de diferentes tamaños y longitudes de documentos.

¡Espero que esto sea de ayuda!

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Funcionará bien LSA en un corpus de documentos de tamaños significativamente diferentes?

Answer

davy.ai