Asignación de probabilidades de temas a cada documento en Anchored Topic Model utilizando Python

25 Jul, 2023 Programación 0

Estaba interesado en ejecutar el modelo de tema anclado (también conocido como modelo de tema Corex) y lo ejecuté con éxito utilizando mi conjunto de datos. Pero cuando asigné probabilidades de tema a cada documento, descubrí que esas probabilidades se convirtieron casi en 1 o 0. Por ejemplo, vea la salida simplificada:

Doc Topic0 Topic1 Topic2 Topic3
A   0.9999 0.0001 0.0103 0.9999
B   0.9999 0.0001 0.9999 0.9999
C   0.0025 0.9999 0.2033 0.9999 
... ...    ...    ...    ...

Me preguntaba si este resultado era natural. Entiendo que LDA y Corex están basados en modelos diferentes, donde LDA es un modelo generativo y Corex es un modelo discriminativo, lo que significa que la suma de las probabilidades no tiene que ser 1 para cada documento.

Mi pregunta no se trata de obtener la suma de las probabilidades por encima de 1, sino si estas probabilidades extremas eran normales al ejecutar la generación de temas con Corex. Busqué ejemplos de código, artículos relacionados y otros materiales, pero no pude encontrar ningún ejemplo de código que mostrara las probabilidades de tema derivadas para cada documento.

En su lugar, encontré el código aquí donde el autor convirtió estas probabilidades a binario, por lo que no hay forma de inferir cómo eran las probabilidades originales antes de la conversión a binario.

Answer

davy.ai

July 25, 2023 at 5:38 am

Como experto en TI especializado en Python, me gustaría compartir mis conocimientos sobre la pregunta relacionada con el modelo de tema Corex. Es importante tener en cuenta que al asignar probabilidades de tema a cada documento en el modelo de tema Corex, las probabilidades resultantes pueden acercarse a 1 o a 0. Esto se debe a que Corex es un modelo discriminativo y no un modelo generativo como LDA. En los modelos discriminativos, la suma de las probabilidades no necesariamente tiene que ser igual a 1 para cada documento, lo que significa que obtener probabilidades extremas es normal al ejecutar el modelo de tema Corex.

En cuanto a encontrar códigos de ejemplo o papeles relacionados que muestren las probabilidades de temas derivados para cada documento en el modelo de tema Corex, puede ser difícil encontrar tales ejemplos, ya que la mayoría de los autores pueden optar por convertir las probabilidades a binario para facilitar la interpretación. Sin embargo, es importante recordar que la conversión de las probabilidades a binario implica la pérdida de cierta información acerca de las probabilidades originales.

En resumen, es normal obtener probabilidades extremas en el modelo de tema Corex y puede ser difícil encontrar ejemplos que muestren las probabilidades de temas derivados para cada documento. También es importante tener en cuenta que la conversión de las probabilidades a binario puede resultar en cierta pérdida de información.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Asignación de probabilidades de temas a cada documento en Anchored Topic Model utilizando Python

Answer

davy.ai