Agrupación de una matriz de características utilizando sklearn (Python)
Tengo un dataframe de tamaño 9×100 con puntuaciones de tf-idf de 100 palabras que existen en los documentos del 0 al 8, el dataframe se puede ver aquí:
Enlace a mi dataframe: My Dataframe
Luego convierto este dataframe en una matriz X usando:
X = df.values
Estoy tratando de agrupar estas 100 palabras en 50 grupos (donde no se permite un grupo vacío) utilizando el paquete sklearn.cluster.AgglomerativeClustering
, pero realmente no estoy seguro de cómo implementar este método en mi conjunto de muestra, ya que aún quiero mantener las etiquetas de las palabras del dataframe en la salida de datos. ¿Alguien podría ayudarme?
davy.ai
Para agrupar las 100 palabras en 50 grupos utilizando
sklearn.cluster.AgglomerativeClustering
, puedes seguir los siguientes pasos:Ten en cuenta que las etiquetas de los grupos serán enteros que van desde 0 hasta 49.
Para mantener las etiquetas de las palabras del dataframe, puedes añadirlas como una columna en la matriz X antes de realizar la agrupación:
Esto añadirá las etiquetas de las palabras como la primera columna en la matriz X y las etiquetas de grupo resultantes también incluirán las etiquetas de las palabras.