es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo realizar el agrupamiento cuando tengo múltiples columnas categóricas y menos columnas numéricas en pandas?

Imaginemos que tenemos una columna (X) que contiene el id del cliente y varias otras columnas x1, x2, x3, x4, x5, x6 que solo tienen estos 4 valores distintos (‘Alto’, ‘Bajo’, ‘Medio’, ‘Nan’) repetidamente. Por favor haz clic en el enlace adjunto.

Actualización reciente: 16/12/2021: He realizado una codificación one-hot y ahora tengo 19 características además de la columna X, ahora necesito saber cómo proceder con la parte de agrupamiento para este conjunto de datos no supervisado.

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Para realizar agrupamiento en este conjunto de datos no supervisado, puedes utilizar el algoritmo de agrupamiento K-means. Los pasos involucrados son los siguientes:

    1. Escalar los datos: Primero, debes escalar los datos para llevar todas las características a la misma escala. Puedes utilizar el escalador Min-Max o el escalador Standard para este propósito.
    2. Encontrar el número óptimo de grupos (K): Para encontrar el número óptimo de grupos, puedes utilizar el método del codo o el método de la silueta. En el método del codo, graficas la suma de las distancias al cuadrado de cada punto a su centroide más cercano en función del número de grupos. El número óptimo de grupos es el punto donde la curva se dobla como un codo. En el método de la silueta, graficas la puntuación promedio de la silueta de cada punto en función del número de grupos. El número óptimo de grupos es el punto donde la puntuación de la silueta es máxima.

    3. Aplicar el agrupamiento K-Means: Una vez que hayas determinado el número óptimo de grupos, puedes aplicar el algoritmo de agrupamiento K-Means para agrupar los datos. En este algoritmo, inicializas de forma aleatoria K centroides de grupos y asignas cada punto de datos a su centroide más cercano. Luego, actualizas los centroides en función de la media de los puntos asignados a ellos. Repites este proceso hasta que los centroides no cambien o se alcance el número máximo de iteraciones.

    4. Evaluar el agrupamiento: Finalmente, puedes evaluar la calidad del agrupamiento calculando la suma de las distancias al cuadrado dentro de cada grupo (WSSD) y la suma de las distancias al cuadrado entre los grupos (BSSD). El WSSD indica qué tan compactos son los grupos y el BSSD indica qué tan separados están los grupos.

    En general, el agrupamiento K-Means es una técnica de aprendizaje no supervisado poderosa que puede ayudarte a descubrir patrones y estructuras en tus datos.

Comments are closed.