es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo puedo calcular todas las distancias familiares y extraer todos los resultados en K-means?

Me gustaría utilizar el calculador de distancias K-means en lugar de la distancia euclidiana, y comparar los resultados entre ellos.
En otras palabras, utilizar la familia de medidas de distancia en grupos en lugar de las distancias euclidianas para comparar los resultados en más de un conjunto de datos.
Además de utilizar las herramientas disponibles para esta técnica para evaluar estas métricas.
Si estás interesado, te puedo dar más información.
Tengo un conjunto de datos que me gustaría utilizar. He adjuntado una muestra del conjunto de datos, que es el conjunto de datos Iris. Puedes utilizarlo para implementar las métricas y extraerlas, además de la evaluación requerida.

Tabla de medidas de distancia revisadas que funcionan con K-means
Familia de la métrica de distancia Distancia

1- Familia de la métrica de distancia L1:
Distancia de Canberra (CanD),
Distancia de Sørensen (SD),
Distancia de No Intersección (NID)

2- Familia de medidas de distancia de Minkowski Lp:
Distancia de Manhattan (MD),
Distancia de Chebyshev (CD),
Distancia euclidiana (ED)

3- Familia de distancia cuadrada de acordes:
Distancia de Bhattachayya (BD),
Distancia de Hellinger (HeD)

4- Familia de distancia cuadrada L2:
Distancia euclidiana cuadrada (SED),
Distancia de Clark (ClD),
Distancia Neyman χ2 (NCSD),
Distancia Pearson χ2 (PCSD),
Distancia χ2 cuadrada (SCSD),
Distancia χ2 simétrica probabilística (PSCSD),
Distancia de divergencia (DivD),
Distancia χ2 simétrica aditiva (ASCSD),
Distancia promedio (AD),
Distancia euclidiana censurada media (MCED),
Distancia de chi-cuadrado cuadrada (SCSD)

5- Familia de entropía de Shannon:
Distancia de Jeffreys (JefD)

6- Otra familia de distancias:
Distancia media (AvgD),
Distancia de Kumar-Johnson (KJD),
Distancia de Taneja (TanD),
Distancia de Pearson (PeaD),
Distancia de correlación (CorD),
Distancia de Pearson cuadrada (SPeaD),
Distancia de Hamming (HamD),
Distancia de Hausdorff (HauD)

Nota:
Evaluación del rendimiento
Existen diferentes medidas disponibles para evaluar el rendimiento de las técnicas de agrupamiento. En este estudio, se utilizarán cinco medidas: precisión, exactitud, F1, recall y el índice Rand ajustado (ARI).

Conjunto de datos: UCI Machine Learning Repository: Iris Data Set

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Como experto en TI especializado en Python y distancia, me gustaría sugerir el uso del calculador de distancia de K-means en lugar de la distancia euclidiana para comparar los resultados en más de un conjunto de datos. K-means es una técnica de agrupamiento ampliamente utilizada en análisis de datos, y emplea varias métricas de distancia para calcular la similitud o la disimilitud entre los puntos de datos.

    Para comparar el rendimiento de diferentes métricas de distancia, podemos utilizar el conjunto de datos de Iris, que está disponible en el Repositorio de Aprendizaje Automático de UCI. Este conjunto de datos consta de 150 instancias u observaciones de flores de iris, y cada instancia tiene cuatro atributos, incluyendo la longitud del sépalo, el ancho del sépalo, la longitud del pétalo y el ancho del pétalo. El conjunto de datos de iris también tiene tres especies diferentes de flores de Iris, incluyendo Iris Setosa, Iris Versicolor e Iris Virginica.

    Para implementar la técnica de agrupamiento de K-means, podemos utilizar la biblioteca scikit-learn en Python. Scikit-learn proporciona varias métricas de distancia para el agrupamiento, que se pueden utilizar para calcular la similitud o la disimilitud entre los puntos de datos. Algunas de las métricas de distancia que funcionan con K-means incluyen la familia de métricas de distancia L1 que incluye la Distancia de Canberra (CanD), la Distancia de Sørensen (SD) y la Distancia de No Intersección (NID), la familia de medidas de distancia de Minkowski Lp que incluye la Distancia de Manhattan (MD), la Distancia de Chebyshev (CD), la Distancia Euclidiana (ED), la familia de distancias de Cuerda al Cuadrado que incluye la Distancia de Bhattachayya (BD) y la Distancia de Hellinger (HeD), y la familia de entropías de Shannon que incluye la Distancia de Jeffreys (JefD) y otras.

    Para comparar el rendimiento de diferentes métricas de distancia, podemos utilizar varias medidas de evaluación, como la exactitud, la precisión, la puntuación F1, la recuperación y el índice Rand ajustado (ARI). Estas medidas se pueden utilizar para evaluar el rendimiento del agrupamiento y proporcionan una forma cuantitativa de comparar diferentes métricas de distancia.

    En conclusión, para comparar el rendimiento de diferentes métricas de distancia, podemos utilizar la técnica de agrupamiento de K-means y la biblioteca scikit-learn en Python. El conjunto de datos de Iris se puede utilizar para implementar las métricas y extraerlas, además de las medidas de evaluación requeridas, como la exactitud, la precisión, la puntuación F1, la recuperación y el índice Rand ajustado (ARI).

Comments are closed.