¿Es posible extraer un valor promedio y una dispersión (SD) de la matriz de similitud obtenida con Quanteda?

27 May, 2023 Programación 0

Sintaxis quanteda:
tstat_q <- textstat_simil(dfmat_q, method = "cosine", margin = "documents") tstat_q
Ejemplo de matriz:
ninguno texto1 texto2 texto3 texto4 texto5 texto6 texto7 texto8 texto9 texto10 texto11 texto12 texto13 texto14 texto1 1.000 0.163 0.2919 0.383 0.395 0.542 0.178 0.267 0.292 0.179 0.1279 0.229 0.220 0.320 texto2 0.163 1.000 0.5959 0.213 0.427 0.255 0.467 0.272 0 0.274 0 0.216 0.403 0.245 texto3 0.292 0.596 1.0000 0.399 0.582 0.565 0.609 0.487 0.159 0.466 0.0889 0.349 0.389 0.313 texto4 0.383 0.213 0.3993 1.000 0.486 0.617 0.442 0.464 0.354 0.350 0.1485 0.291 0.382 0.418 texto5 0.395 0.427 0.5817 0.486 1.000 0.606 0.487 0.504 0.347 0.416 0.2231 0.338 0.319 0.372 texto6 0.542 0.255 0.5652 0.617 0.606 1.000 0.371 0.487 0.291 0.326 0.1778 0.257 0.298 0.396 texto7 0.178 0.467 0.6091 0.442 0.487 0.371 1.000 0.466 0.185 0.426 0.1354 0.380 0.460 0.381 texto8 0.267 0.272 0.4865 0.464 0.504 0.487 0.466 1.000 0.296 0.373 0.1421 0.382 0.439 0.400 texto9 0.292 0 0.1589 0.354 0.347 0.291 0.185 0.296 1.000 0.298 0.3926 0.335 0.258 0.305 texto10 0.179 0.274 0.4663 0.350 0.416 0.326 0.426 0.373 0.298 1.000 0.1907 0.374 0.540 0.268 texto11 0.128 0 0.0889 0.148 0.223 0.178 0.135 0.142 0.393 0.191 1.0000 0.188 0.117 0.213 texto12 0.229 0.216 0.3488 0.291 0.338 0.257 0.380 0.382 0.335 0.374 0.1877 1.000 0.367 0.291 texto13 0.220 0.403 0.3891 0.382 0.319 0.298 0.460 0.439 0.258 0.540 0.1170 0.367 1.000 0.384 texto14 0.320 0.245 0.3128 0.418 0.372 0.396 0.381 0.400 0.305 0.268 0.2132 0.291 0.384 1.000

Answer

davy.ai

May 27, 2023 at 7:50 pm

El código proporcionado muestra el uso de la función textstat_simil() en quanteda para calcular las puntuaciones de similitud coseno. El argumento dfmat_q es una matriz documento-característica, que debe crearse previamente, que contiene los datos de texto que desea analizar. El argumento “method” está establecido en “cosine”, que es una forma común de calcular la similitud en la minería de textos. El argumento “margin” está establecido en “documents”, lo que indica que queremos puntuaciones de similitud entre todos los pares de documentos en la matriz. La salida resultante es una matriz cuadrada donde cada celda representa la puntuación de similitud entre cada par de documentos, con valores que van del 0 al 1. Por ejemplo, la celda en la fila 1, columna 2 representa la puntuación de similitud entre “texto1” y “texto2”, que es 0.163.

Cabe señalar que las puntuaciones de similitud calculadas por textstat_simil() pueden usarse para una variedad de propósitos, como agrupar documentos en grupos basados en su similitud, o identificar documentos que son más similares a un documento de consulta dado.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Es posible extraer un valor promedio y una dispersión (SD) de la matriz de similitud obtenida con Quanteda?

Answer

davy.ai