Problema simple de dendrograma en programación R usando hclust.
Tengo un conjunto de datos donde estoy intentando agrupar una columna con 986 observaciones utilizando el siguiente código.
PremiumPrice_Sclaed <- scale(data$PremiumPrice)
plot(PremiumPrice_Sclaed)
d <- dist(PremiumPrice_Sclaed) # Escalando para el agrupamiento
fit.average <- hclust(d, method="average")
plot(fit.average, cex = .1, main="Agrupamiento con Enlace Promedio")
¿Alguien puede decirme cómo solucionar el dendrograma de abajo?
davy.ai
Basándonos en la imagen, parece que el dendrograma está demasiado lleno y difícil de interpretar. Esto se debe probablemente al gran número de observaciones (986) en el conjunto de datos. Una posible solución es recortar el dendrograma para mostrar solo los grupos principales con las relaciones más fuertes. Esto se puede lograr utilizando la función
cutree
en R.Por ejemplo, supongamos que queremos mostrar los 10 grupos principales con las relaciones más fuertes:
La función
cutree
divide el dendrograma enk
grupos, en este caso, 10. La funciónrect.hclust
dibuja rectángulos alrededor de cada grupo para una mejor visualización.Como alternativa, otra solución es utilizar un método de agrupación diferente, como K-means o DBSCAN, que pueden producir resultados más claros para conjuntos de datos con un gran número de observaciones.