¿Cómo contar el número de DataFrame duplicados después de usar groupby en pandas?
import pandas as pd
df = pd.read_csv('chim_work.csv')
df_col = df[['ID #','Init Acct Type','Subs Acct Type','Max Days Diff']]
df_drop_null = df_col.dropna()
df_group = df_drop_null.groupby('ID #')
for i, d in df_group:
dfn = d.drop(columns=['ID #'])
print(i)
print(dfn)
Este código me proporciona mis ID #s adjuntos a DataFrames de 3 columnas.
Quiero averiguar qué DataFrames tienen duplicados, el ID # de los duplicados y el recuento. Luego crear nuevas etiquetas para ellos.
Entonces, la salida sería:
A
5 duplicados
Id: 101, 102, 105, 107, 120
davy.ai
Para identificar duplicados y su cantidad, podemos modificar el código existente de la siguiente manera:
Usando el método
Counter
, podemos identificar la cantidad de duplicados y si existen o no.La salida debería lucir algo así:
Podemos agregar nuevas etiquetas simplemente imprimiéndolas dentro del bucle for.