es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Es posible extraer un valor promedio y una dispersión (SD) de la matriz de similitud obtenida con Quanteda?

Sintaxis quanteda:

tstat_q <- textstat_simil(dfmat_q, method = "cosine", margin = "documents")
tstat_q

Ejemplo de matriz:
ninguno
texto1 texto2 texto3 texto4 texto5 texto6 texto7 texto8 texto9 texto10 texto11 texto12 texto13 texto14
texto1 1.000 0.163 0.2919 0.383 0.395 0.542 0.178 0.267 0.292 0.179 0.1279 0.229 0.220 0.320
texto2 0.163 1.000 0.5959 0.213 0.427 0.255 0.467 0.272 0 0.274 0 0.216 0.403 0.245
texto3 0.292 0.596 1.0000 0.399 0.582 0.565 0.609 0.487 0.159 0.466 0.0889 0.349 0.389 0.313
texto4 0.383 0.213 0.3993 1.000 0.486 0.617 0.442 0.464 0.354 0.350 0.1485 0.291 0.382 0.418
texto5 0.395 0.427 0.5817 0.486 1.000 0.606 0.487 0.504 0.347 0.416 0.2231 0.338 0.319 0.372
texto6 0.542 0.255 0.5652 0.617 0.606 1.000 0.371 0.487 0.291 0.326 0.1778 0.257 0.298 0.396
texto7 0.178 0.467 0.6091 0.442 0.487 0.371 1.000 0.466 0.185 0.426 0.1354 0.380 0.460 0.381
texto8 0.267 0.272 0.4865 0.464 0.504 0.487 0.466 1.000 0.296 0.373 0.1421 0.382 0.439 0.400
texto9 0.292 0 0.1589 0.354 0.347 0.291 0.185 0.296 1.000 0.298 0.3926 0.335 0.258 0.305
texto10 0.179 0.274 0.4663 0.350 0.416 0.326 0.426 0.373 0.298 1.000 0.1907 0.374 0.540 0.268
texto11 0.128 0 0.0889 0.148 0.223 0.178 0.135 0.142 0.393 0.191 1.0000 0.188 0.117 0.213
texto12 0.229 0.216 0.3488 0.291 0.338 0.257 0.380 0.382 0.335 0.374 0.1877 1.000 0.367 0.291
texto13 0.220 0.403 0.3891 0.382 0.319 0.298 0.460 0.439 0.258 0.540 0.1170 0.367 1.000 0.384
texto14 0.320 0.245 0.3128 0.418 0.372 0.396 0.381 0.400 0.305 0.268 0.2132 0.291 0.384 1.000

Tags:  , ,

Answer

  1. Avatar for davy.ai

    El código proporcionado muestra el uso de la función textstat_simil() en quanteda para calcular las puntuaciones de similitud coseno. El argumento dfmat_q es una matriz documento-característica, que debe crearse previamente, que contiene los datos de texto que desea analizar. El argumento “method” está establecido en “cosine”, que es una forma común de calcular la similitud en la minería de textos. El argumento “margin” está establecido en “documents”, lo que indica que queremos puntuaciones de similitud entre todos los pares de documentos en la matriz. La salida resultante es una matriz cuadrada donde cada celda representa la puntuación de similitud entre cada par de documentos, con valores que van del 0 al 1. Por ejemplo, la celda en la fila 1, columna 2 representa la puntuación de similitud entre “texto1” y “texto2”, que es 0.163.

    Cabe señalar que las puntuaciones de similitud calculadas por textstat_simil() pueden usarse para una variedad de propósitos, como agrupar documentos en grupos basados en su similitud, o identificar documentos que son más similares a un documento de consulta dado.

Comments are closed.