Matriz de distancias entre palabras en R.

27 May, 2023 Programación 0

Necesito un marco de datos de conexión con intensidad de conexión utilizando palabras. Los datos tienen este aspecto:

df1 <- c("test", "example", "palabra aleatoria", "otra")
df2 <- c("palabra2", "palabra3", "test")
df3 <- c("palabra2", "test", "pregunta", "pila", "desbordamiento")
df4 <- c("palabra2", "no", "sí", "vector")

Idealmente, debería obtener algo así:

links <- data.frame(
  source=c("df1","df2", "df3", "df4"), 
  target=c("df1","df2", "df3", "df4"), 
  value=c(1,2, 2, 1)
  )

La idea es crear un diagrama de Sankey como se explica aquí (https://www.r-graph-gallery.com/321-introduction-to-interactive-sankey-diagram-2.html) basado en la similitud entre conjuntos de datos. Sin embargo, no se me ocurre:

(1) Cómo calcular la similitud entre vectores de palabras en varios conjuntos de datos
(2) Cómo crear una matriz de distancia basada en esta similitud con el resultado de la distancia entre pares de conjuntos de datos

El problema no es tanto cómo calcular las distancias, sino cómo hacerlo entre diferentes conjuntos de datos (el ejemplo solo tiene 4, pero tengo más de 70) y almacenar los resultados en una sola matriz.

es.davy.ai

¿Tienes una pregunta?

Matriz de distancias entre palabras en R.

Answer

davy.ai