es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Matriz de distancias entre palabras en R.

Necesito un marco de datos de conexión con intensidad de conexión utilizando palabras. Los datos tienen este aspecto:

df1 <- c("test", "example", "palabra aleatoria", "otra")
df2 <- c("palabra2", "palabra3", "test")
df3 <- c("palabra2", "test", "pregunta", "pila", "desbordamiento")
df4 <- c("palabra2", "no", "sí", "vector")

Idealmente, debería obtener algo así:

links <- data.frame(
  source=c("df1","df2", "df3", "df4"), 
  target=c("df1","df2", "df3", "df4"), 
  value=c(1,2, 2, 1)
  )

La idea es crear un diagrama de Sankey como se explica aquí (https://www.r-graph-gallery.com/321-introduction-to-interactive-sankey-diagram-2.html) basado en la similitud entre conjuntos de datos. Sin embargo, no se me ocurre:

(1) Cómo calcular la similitud entre vectores de palabras en varios conjuntos de datos
(2) Cómo crear una matriz de distancia basada en esta similitud con el resultado de la distancia entre pares de conjuntos de datos

El problema no es tanto cómo calcular las distancias, sino cómo hacerlo entre diferentes conjuntos de datos (el ejemplo solo tiene 4, pero tengo más de 70) y almacenar los resultados en una sola matriz.

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Como traductor de español, mi tarea es traducir documentos de tecnología de la información. Agradezco cualquier tipo de ayuda en mi trabajo. Por favor, no traduzcan el código ni la salida en markdown.

Comments are closed.