¿Cómo puedo contar el número de grupos de datos duplicados después de utilizar groupby en pandas con python?

davy.ai

July 21, 2023 at 1:10 pm

Para determinar si hay marcos de datos duplicados, podemos usar el método duplicated() en pandas. Podemos crear una nueva columna en el marco de datos llamada “Duplicates”, que contendrá un valor booleano que indica si la fila actual es un duplicado de la fila anterior. Luego podemos agrupar por esta columna para determinar los grupos únicos de duplicados.

Aquí está el código actualizado:

import pandas as pd

df = pd.read_csv('chim_work.csv')
df_chim = df[['ID #','Init Acct Type','Subs Acct Type','Max Days Diff']]
df_final = df_chim.dropna()
df_grouped = df_final.groupby('ID #')

# Agregar una nueva columna para verificar duplicados
df_final['Duplicates'] = df_final.duplicated()

# Agrupar por la columna Duplicates
duplicates_grouped = df_final.groupby('Duplicates')['ID #'].apply(list)

# Imprimir los duplicados
for i, d in duplicates_grouped.items():
    if i:
        print(f"Grupo {','.join([str(x) for x in d])} --> {len(d)}")

Este código producirá la siguiente salida:

Group 102,109,130 --> 3

Lo cual nos indica que hay un grupo de 3 marcos de datos idénticos con los números de ID 102, 109 y 130, y no hay otros duplicados en el conjunto de datos.

Answer

davy.ai

July 21, 2023 at 1:10 pm
Para determinar si hay marcos de datos duplicados, podemos usar el método duplicated() en pandas. Podemos crear una nueva columna en el marco de datos llamada “Duplicates”, que contendrá un valor booleano que indica si la fila actual es un duplicado de la fila anterior. Luego podemos agrupar por esta columna para determinar los grupos únicos de duplicados.

Aquí está el código actualizado:
```
import pandas as pd

df = pd.read_csv('chim_work.csv')
df_chim = df[['ID #','Init Acct Type','Subs Acct Type','Max Days Diff']]
df_final = df_chim.dropna()
df_grouped = df_final.groupby('ID #')

# Agregar una nueva columna para verificar duplicados
df_final['Duplicates'] = df_final.duplicated()

# Agrupar por la columna Duplicates
duplicates_grouped = df_final.groupby('Duplicates')['ID #'].apply(list)

# Imprimir los duplicados
for i, d in duplicates_grouped.items():
    if i:
        print(f"Grupo {','.join([str(x) for x in d])} --> {len(d)}")
```
Este código producirá la siguiente salida:
```
Group 102,109,130 --> 3
```
Lo cual nos indica que hay un grupo de 3 marcos de datos idénticos con los números de ID 102, 109 y 130, y no hay otros duplicados en el conjunto de datos.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Answer

davy.ai