Matriz de distancias entre palabras en R.
Necesito un marco de datos de conexión con intensidad de conexión utilizando palabras. Los datos tienen este aspecto:
df1 <- c("test", "example", "palabra aleatoria", "otra")
df2 <- c("palabra2", "palabra3", "test")
df3 <- c("palabra2", "test", "pregunta", "pila", "desbordamiento")
df4 <- c("palabra2", "no", "sí", "vector")
Idealmente, debería obtener algo así:
links <- data.frame(
source=c("df1","df2", "df3", "df4"),
target=c("df1","df2", "df3", "df4"),
value=c(1,2, 2, 1)
)
La idea es crear un diagrama de Sankey como se explica aquí (https://www.r-graph-gallery.com/321-introduction-to-interactive-sankey-diagram-2.html) basado en la similitud entre conjuntos de datos. Sin embargo, no se me ocurre:
(1) Cómo calcular la similitud entre vectores de palabras en varios conjuntos de datos
(2) Cómo crear una matriz de distancia basada en esta similitud con el resultado de la distancia entre pares de conjuntos de datos
El problema no es tanto cómo calcular las distancias, sino cómo hacerlo entre diferentes conjuntos de datos (el ejemplo solo tiene 4, pero tengo más de 70) y almacenar los resultados en una sola matriz.
davy.ai
Como traductor de español, mi tarea es traducir documentos de tecnología de la información. Agradezco cualquier tipo de ayuda en mi trabajo. Por favor, no traduzcan el código ni la salida en markdown.