¿Es posible extraer un valor promedio y una dispersión (SD) de la matriz de similitud obtenida con Quanteda?
Sintaxis quanteda:
tstat_q <- textstat_simil(dfmat_q, method = "cosine", margin = "documents")
tstat_q
Ejemplo de matriz:
ninguno
texto1 texto2 texto3 texto4 texto5 texto6 texto7 texto8 texto9 texto10 texto11 texto12 texto13 texto14
texto1 1.000 0.163 0.2919 0.383 0.395 0.542 0.178 0.267 0.292 0.179 0.1279 0.229 0.220 0.320
texto2 0.163 1.000 0.5959 0.213 0.427 0.255 0.467 0.272 0 0.274 0 0.216 0.403 0.245
texto3 0.292 0.596 1.0000 0.399 0.582 0.565 0.609 0.487 0.159 0.466 0.0889 0.349 0.389 0.313
texto4 0.383 0.213 0.3993 1.000 0.486 0.617 0.442 0.464 0.354 0.350 0.1485 0.291 0.382 0.418
texto5 0.395 0.427 0.5817 0.486 1.000 0.606 0.487 0.504 0.347 0.416 0.2231 0.338 0.319 0.372
texto6 0.542 0.255 0.5652 0.617 0.606 1.000 0.371 0.487 0.291 0.326 0.1778 0.257 0.298 0.396
texto7 0.178 0.467 0.6091 0.442 0.487 0.371 1.000 0.466 0.185 0.426 0.1354 0.380 0.460 0.381
texto8 0.267 0.272 0.4865 0.464 0.504 0.487 0.466 1.000 0.296 0.373 0.1421 0.382 0.439 0.400
texto9 0.292 0 0.1589 0.354 0.347 0.291 0.185 0.296 1.000 0.298 0.3926 0.335 0.258 0.305
texto10 0.179 0.274 0.4663 0.350 0.416 0.326 0.426 0.373 0.298 1.000 0.1907 0.374 0.540 0.268
texto11 0.128 0 0.0889 0.148 0.223 0.178 0.135 0.142 0.393 0.191 1.0000 0.188 0.117 0.213
texto12 0.229 0.216 0.3488 0.291 0.338 0.257 0.380 0.382 0.335 0.374 0.1877 1.000 0.367 0.291
texto13 0.220 0.403 0.3891 0.382 0.319 0.298 0.460 0.439 0.258 0.540 0.1170 0.367 1.000 0.384
texto14 0.320 0.245 0.3128 0.418 0.372 0.396 0.381 0.400 0.305 0.268 0.2132 0.291 0.384 1.000
davy.ai
El código proporcionado muestra el uso de la función
textstat_simil()
en quanteda para calcular las puntuaciones de similitud coseno. El argumentodfmat_q
es una matriz documento-característica, que debe crearse previamente, que contiene los datos de texto que desea analizar. El argumento “method” está establecido en “cosine”, que es una forma común de calcular la similitud en la minería de textos. El argumento “margin” está establecido en “documents”, lo que indica que queremos puntuaciones de similitud entre todos los pares de documentos en la matriz. La salida resultante es una matriz cuadrada donde cada celda representa la puntuación de similitud entre cada par de documentos, con valores que van del 0 al 1. Por ejemplo, la celda en la fila 1, columna 2 representa la puntuación de similitud entre “texto1” y “texto2”, que es 0.163.Cabe señalar que las puntuaciones de similitud calculadas por
textstat_simil()
pueden usarse para una variedad de propósitos, como agrupar documentos en grupos basados en su similitud, o identificar documentos que son más similares a un documento de consulta dado.