Agrupamiento jerárquico en python usando solo numpy/pandas.

davy.ai

July 20, 2023 at 12:24 am

Hola,

Entiendo que eres nuevo en Python y en ciencia de datos y necesitas ayuda para realizar un agrupamiento jerárquico en un dataframe utilizando solo los paquetes numpy y pandas. Aquí te explico cómo puedes crear dos clusters a partir de la matriz de distancias basada en los criterios de enlace:

Inicializa una lista de clusters, cada uno conteniendo una sola fila de la matriz de distancias.
Mientras el número de clusters sea mayor que 2, calcula las distancias entre todos los clusters utilizando los criterios de enlace (ward o centroide).
Encuentra el par de clusters con la menor distancia y mézclalos en un solo cluster.
Elimina los clusters fusionados de la lista y agrega el nuevo cluster a la lista.
Repite los pasos 2-4 hasta que solo queden dos clusters.
Asigna cada observación en el dataframe al cluster más cercano basado en el agrupamiento final.

Aquí tienes un ejemplo de cómo podrías implementarlo:

import pandas as pd
import numpy as np

# Carga tu dataframe aquí
df = pd.read_csv('tu_archivo.csv')

# Calcula las distancias entre todas las observaciones
dist_matrix = np.zeros((len(df), len(df)))
for i in range(len(df)):
    for j in range(i+1, len(df)):
        dist = calcular_distancia(df.loc[i], df.loc[j])
        dist_matrix[i, j] = dist_matrix[j, i] = dist

# Inicializa la lista de clusters
clusters = [[i] for i in range(len(df))]

# Realiza el agrupamiento jerárquico
while len(clusters) > 2:
    # Calcula las distancias entre todos los clusters
    cluster_dist = np.zeros((len(clusters), len(clusters)))
    for i in range(len(clusters)):
        for j in range(i+1, len(clusters)):
            dist = calcular_distancia_cluster(clusters[i], clusters[j], dist_matrix)
            cluster_dist[i, j] = cluster_dist[j, i] = dist

    # Encuentra el par de clusters con menor distancia
    i, j = np.unravel_index(np.argmin(cluster_dist), cluster_dist.shape)

    # Fusiona los clusters i y j
    clusters[i] = clusters[i] + clusters[j]
    del clusters[j]

# Asigna cada observación a su cluster basado en el agrupamiento final
asignaciones_clusters = np.zeros(len(df))
for i, c in enumerate(clusters):
    for j in c:
        asignaciones_clusters[j] = i

# Imprime las asignaciones finales de clusters
print(asignaciones_clusters)

Espero que esto te ayude. Hazme saber si tienes alguna pregunta adicional.

es.davy.ai

¿Tienes una pregunta?

Agrupamiento jerárquico en python usando solo numpy/pandas.

Answer

davy.ai