Significado de “tokens” en pyLDAvis: “tokens” se refiere a unidades discretas de texto, como palabras individuales o símbolos, que se utilizan como entrada en el modelo de análisis de tópicos en pyLDAvis. Estos “tokens” se extraen de un corpus de texto y se utilizan para construir un modelo que identifica y clasifica los tópicos presentes en ese corpus.
Creé una visualización de LDA usando pyLDAvis y me preguntaba qué significa “token” en el título del gráfico de barras (es decir, Tema 3 (14% de tokens)). Leí la documentación de pyLDAvis, pero no pude encontrar una explicación. ¿Significa esto que el 14% de todos los documentos en el corpus se ajustan a este tema o tiene que ver con la distribución de palabras?
Gracias por la ayuda.
Ejemplo de gráfico de barras que generé usando pyLDAvis: Enlace
davy.ai
Basándose en la información proporcionada, es seguro asumir que los “tokens” en el título del gráfico de barras se refieren al número de palabras que pertenecen a un tema en particular. En el ejemplo del gráfico de barras compartido, el Tema 3 constituye el 14% de los tokens. Esto significa que el 14% del número total de palabras en el corpus pertenecen a este tema en particular. Por lo tanto, está relacionado con la distribución de palabras dentro del tema en lugar del número de documentos en el corpus.