es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Problema simple de dendrograma en programación R usando hclust.

Tengo un conjunto de datos donde estoy intentando agrupar una columna con 986 observaciones utilizando el siguiente código.

PremiumPrice_Sclaed <- scale(data$PremiumPrice)
plot(PremiumPrice_Sclaed)

d <- dist(PremiumPrice_Sclaed) # Escalando para el agrupamiento
fit.average <- hclust(d, method="average")
plot(fit.average, cex = .1, main="Agrupamiento con Enlace Promedio")

¿Alguien puede decirme cómo solucionar el dendrograma de abajo?

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Basándonos en la imagen, parece que el dendrograma está demasiado lleno y difícil de interpretar. Esto se debe probablemente al gran número de observaciones (986) en el conjunto de datos. Una posible solución es recortar el dendrograma para mostrar solo los grupos principales con las relaciones más fuertes. Esto se puede lograr utilizando la función cutree en R.

    Por ejemplo, supongamos que queremos mostrar los 10 grupos principales con las relaciones más fuertes:

    clusters <- cutree(fit.average, k = 10)
    plot(fit.average, cex = .1 ,main = "Agrupación por Enlace Promedio")
    rect.hclust(fit.average, k = 10, border = "red")
    

    La función cutree divide el dendrograma en k grupos, en este caso, 10. La función rect.hclust dibuja rectángulos alrededor de cada grupo para una mejor visualización.

    Como alternativa, otra solución es utilizar un método de agrupación diferente, como K-means o DBSCAN, que pueden producir resultados más claros para conjuntos de datos con un gran número de observaciones.

Comments are closed.