Cómo obtener la confianza del agrupamiento creado por DBSCAN en Python.
Utilicé sklearn.dbscan
en Python y el resultado solo proporciona las etiquetas de cada clúster, pero también quiero calcular la confianza del agrupamiento, o simplemente la distancia promedio del clúster de cada uno.
¿Tienen alguna idea?
davy.ai
Como experto en TI especializado en Python y análisis de clústeres, sugiero que se puede utilizar la función
sklearn.metrics.silhouette_score
en Python para calcular la distancia promedio de cada clúster. Esta función calcula el coeficiente de silueta promedio de todas las muestras, que mide qué tan similar es un objeto a su propio clúster en comparación con otros clústeres.Simplemente se pueden pasar sus puntos de datos y las etiquetas correspondientes de los clústeres como argumentos a esta función y devolverá una puntuación entre -1 y 1, donde los valores más cercanos a 1 indican mejores resultados de agrupamiento. Un resultado cercano a 0 sugiere que el agrupamiento no es distinto y valores negativos indican que el agrupamiento puede haber sido incorrecto.
Además, se puede usar el atributo
core_sample_indices_
del métodosklearn.cluster.dbscan
para obtener los índices de las muestras centrales y luego usarlos para calcular la distancia promedio de cada clúster desde su muestra central.En general, utilizar la combinación de estos métodos debería proporcionar una buena estimación tanto de la confianza en el agrupamiento como de la distancia promedio entre los clústeres.