Distribución en percentiles desde el dataframe.

davy.ai

July 29, 2023 at 7:42 am

Para estudiar la distribución de cada percentil, puedes usar la función qcut() de pandas para dividir la columna score en grupos de percentiles iguales. Luego, puedes agrupar los datos por estos grupos y contar la cantidad de valores únicos de id que caen en cada grupo. Por último, puedes calcular el porcentaje del total de valores de id que caen en cada grupo.

Aquí tienes un ejemplo de código que hace esto:

import pandas as pd

# crea un dataframe de ejemplo
df = pd.DataFrame({
    'id': [140, 142, 148, 166, ...],
    'score': [0.1223, 0.01123, 0.1932, 0.0226, ...]
})

# divide la columna score en 10 grupos de percentiles
df['percentil'] = pd.qcut(df['score'], q=10, labels=False)

# agrupa por percentil y cuenta los valores únicos de id
agrupado = df.groupby('percentil')['id'].nunique().reset_index()
agrupado.columns = ['percentil', 'cantidad']

# calcula el porcentaje del total de valores de id
total = df['id'].nunique()
agrupado['porcentaje'] = agrupado['cantidad'] / total * 100

# imprime los resultados
print(agrupado)

Este código divide la columna score en 10 grupos de percentiles utilizando pd.qcut(), lo cual crea una nueva columna percentil. El argumento labels=False significa que los valores de retorno son números de grupos (0-9) en lugar de etiquetas de grupos (es decir, del 0-10%).

A continuación, el código agrupa el dataframe por percentil y cuenta la cantidad de valores únicos de id utilizando .groupby() y .nunique(). El dataframe resultante se renombra a agrupado y contiene las columnas percentil, cantidad y porcentaje.

Por último, el código calcula el porcentaje del total de valores de id que caen en cada grupo dividiendo cantidad por el número total de valores únicos de id (df['id'].nunique()) y multiplicando por 100.

El dataframe resultante agrupado contiene la cantidad y el porcentaje de valores únicos de id para cada grupo de percentiles, lo cual te permitirá estudiar la distribución de cada percentil.

Answer

davy.ai

July 29, 2023 at 7:42 am
Para estudiar la distribución de cada percentil, puedes usar la función qcut() de pandas para dividir la columna score en grupos de percentiles iguales. Luego, puedes agrupar los datos por estos grupos y contar la cantidad de valores únicos de id que caen en cada grupo. Por último, puedes calcular el porcentaje del total de valores de id que caen en cada grupo.

Aquí tienes un ejemplo de código que hace esto:
```
import pandas as pd

# crea un dataframe de ejemplo
df = pd.DataFrame({
    'id': [140, 142, 148, 166, ...],
    'score': [0.1223, 0.01123, 0.1932, 0.0226, ...]
})

# divide la columna score en 10 grupos de percentiles
df['percentil'] = pd.qcut(df['score'], q=10, labels=False)

# agrupa por percentil y cuenta los valores únicos de id
agrupado = df.groupby('percentil')['id'].nunique().reset_index()
agrupado.columns = ['percentil', 'cantidad']

# calcula el porcentaje del total de valores de id
total = df['id'].nunique()
agrupado['porcentaje'] = agrupado['cantidad'] / total * 100

# imprime los resultados
print(agrupado)
```
Este código divide la columna score en 10 grupos de percentiles utilizando pd.qcut(), lo cual crea una nueva columna percentil. El argumento labels=False significa que los valores de retorno son números de grupos (0-9) en lugar de etiquetas de grupos (es decir, del 0-10%).

A continuación, el código agrupa el dataframe por percentil y cuenta la cantidad de valores únicos de id utilizando .groupby() y .nunique(). El dataframe resultante se renombra a agrupado y contiene las columnas percentil, cantidad y porcentaje.

Por último, el código calcula el porcentaje del total de valores de id que caen en cada grupo dividiendo cantidad por el número total de valores únicos de id (df['id'].nunique()) y multiplicando por 100.

El dataframe resultante agrupado contiene la cantidad y el porcentaje de valores únicos de id para cada grupo de percentiles, lo cual te permitirá estudiar la distribución de cada percentil.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Distribución en percentiles desde el dataframe.

Answer

davy.ai