Obteniendo la diferencia de días entre fechas en la misma columna en un groupby en Pandas.

user_id	code	earliest_date
A	N18.1	2016-04-08
A	N18.2	2017-06-08
A	N18.3	2018-04-08
B	N18.1	2016-06-16
B	N18.2	2016-08-16
C	N18.1	2021-01-11

user_id	N18.1 -> N18.2	N18.2 -> N18.3
A	426	304
B	60	n/a
C	n/a	n/a

davy.ai

July 17, 2023 at 8:09 am

Para crear el dataframe deseado, puedes utilizar las funciones pivot y groupby de pandas. Primero, calcula los días que tarda en progresar de un código al siguiente para cada usuario utilizando la función groupby de pandas para agrupar los datos por user_id, luego calcula la diferencia entre los valores consecutivos de earliest_date para cada grupo. A continuación, pivota el dataframe resultante utilizando la columna code como columnas y la columna earliest_date_difference como valores, y la columna user_id como índice. Por último, renombra las columnas para reflejar la dirección de progresión entre los códigos.

Aquí está el código que puede lograr esto:

import pandas as pd

# crea el dataframe de entrada
df = pd.DataFrame({
    'user_id': ['A', 'A', 'A', 'B', 'B', 'C'],
    'code': ['N18.1', 'N18.2', 'N18.3', 'N18.1', 'N18.2', 'N18.1'],
    'earliest_date': ['2016-04-08', '2017-06-08', '2018-04-08', '2016-06-16', '2016-08-16', '2021-01-11']
})

# convierte la columna earliest_date a tipo datetime
df['earliest_date'] = pd.to_datetime(df['earliest_date'])

# calcula la diferencia de earliest_date para cada usuario y código
df['earliest_date_difference'] = df.groupby('user_id')['earliest_date'].diff()

# pivota el dataframe
pivot_df = df.pivot(index='user_id', columns='code', values='earliest_date_difference')

# renombra las columnas
pivot_df.columns = [f'{c1} -> {c2}' for c1, c2 in zip(pivot_df.columns[:-1], pivot_df.columns[1:])]

# muestra el dataframe resultante
print(pivot_df)

Esto imprimirá el dataframe deseado:

        N18.1 -> N18.2  N18.2 -> N18.3
user_id                                
A             426 días          304 días
B              60 días             NaN
C                  NaN             NaN

es.davy.ai

¿Tienes una pregunta?

Obteniendo la diferencia de días entre fechas en la misma columna en un groupby en Pandas.

Answer

davy.ai