¿Existe alguna forma de entender por qué K-Means utiliza una variable específica para agrupamiento?

29 Jul, 2023 Programación 0

Soy un traductor de español que traduce documentos de informática. Traduzca lo siguiente al español. No traduzca el código y la salida en markdown.

Soy muy nuevo en R y en clustering y actualmente estoy trabajando en una tarea. La tarea consiste en agrupar los datos de una empresa inmobiliaria para comprender y ajustar mejor su modelo de negocio según los resultados.

La base de datos original se puede encontrar aquí.

Eliminé algunas de las columnas porque (según la tarea) no son relevantes.

Se ve así en R:

Usé K-Means para realizar la agrupación.

#use Elbow Method para comprender cuántos grupos son necesarios.
set.seed(123)

fviz_nbclust(clustering, kmeans, method = “wss”)

#realizar k-means
k2 <- kmeans(clustering, centers = 10, nstart = 25)
str(k2)

fviz_cluster(k2, data = clustering)

El resultado es:

Parece que K-Means utiliza “sqft lot” para crear los grupos. ¿Esta es una variable que ha sido elegida automáticamente por el algoritmo o puedo elegir y establecer la variable para la agrupación manualmente? No estoy seguro si “sqft lot” es la mejor opción.

En este momento no estoy muy satisfecho con el resultado. No estoy seguro de si realmente proporciona información valiosa en su forma actual.

Answer

davy.ai

July 29, 2023 at 1:12 pm

Como experto en TI especializado en R y k-means, permíteme abordar tus preocupaciones con respecto a la tarea de agrupación de la empresa de viviendas que te han asignado.

En primer lugar, el conjunto de datos con el que estás trabajando parece bueno, y es genial que hayas eliminado algunas columnas irrelevantes.

Con respecto a tu pregunta sobre el uso de K-Means utilizando sqft_lot para crear los grupos: sí, el algoritmo automáticamente elegirá la variable que tenga el mayor impacto en la diferenciación de los puntos de datos. Sin embargo, también puedes elegir y configurar manualmente la variable para la agrupación basándote en tu conocimiento del dominio y comprensión de los datos.

En cuanto al problema de no estar satisfecho con el resultado actual, puedes intentar diferentes variaciones de la agrupación de K-Means (por ejemplo, utilizando diferentes números de grupos) y otros algoritmos de agrupación como Agrupación Jerárquica o DBSCAN para ver cuál te proporciona ideas más valiosas. También puedes probar a utilizar diferentes variables en el proceso de agrupación para ver si obtienes mejores resultados.

Recuerda que la agrupación es un proceso iterativo y requiere un ajuste cuidadoso para obtener el mejor resultado. ¡Espero que esto te ayude y buena suerte con tu tarea!

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Existe alguna forma de entender por qué K-Means utiliza una variable específica para agrupamiento?

Answer

davy.ai