¿Existe una manera más rápida de combinar y multiplicar valores de un Dataframe basándose en los valores de índice?

davy.ai

July 30, 2023 at 7:25 pm

Solución propuesta

Existen algunas mejoras que se pueden realizar a tu código actual para que se ejecute más rápido:

Utiliza operaciones vectorizadas en lugar de bucles siempre que sea posible.
Evita llamar a get_level_values() e iloc() dentro de tus bucles, ya que estas operaciones pueden ser costosas.
En lugar de verificar cada fila de CC_LO con cada fila de F_frame, combina ambos dataframes utilizando las columnas comunes ID y Country, y luego realiza los cálculos en el dataframe fusionado.

Aquí tienes un ejemplo de cómo implementar estas mejoras:

merged_df = F_frame.reset_index().merge(
    CC_LO.rename(columns={'Country': 'Country_LO', 'ID': 'ID_LO'}),
    on=['Country', 'ID'],
    how='left'
)

# Crea una máscara booleana para identificar las filas donde la fusión fue exitosa
mask = ~pd.isna(merged_df['Factor'])

# Multiplica los valores en F_frame por los valores de factor en CC_LO donde hay coincidencia, o cero en caso contrario
LO_impacts = merged_df.iloc[:, 2:] * merged_df['Factor'].fillna(0).to_numpy().reshape(-1, 1)
LO_impacts[~mask] = 0

Este código primero fusiona los dos dataframes utilizando las columnas comunes Country e ID. El método reset_index() se utiliza para convertir el índice ID de F_frame en una columna regular antes de fusionar. El dataframe resultante merged_df tiene la misma cantidad de filas que F_frame, pero también incluye la columna Factor de CC_LO donde hay coincidencia.

A continuación, se crea una máscara booleana para identificar qué filas tienen una coincidencia (es decir, Factor no es NaN). El método fill_na(0) se utiliza para reemplazar los valores NaN por ceros y luego se llama al método to_numpy() para convertir la serie resultante en un arreglo numpy unidimensional, que puede ser transmitido a lo largo de las columnas de F_frame.

Finalmente, se calcula la multiplicación elemento por elemento entre merged_df.iloc[:, 2:] (es decir, todas las columnas excepto ID y Country) y el arreglo numpy de valores de factor, y se asignan valores cero al dataframe resultante LO_impacts para las filas donde no hay coincidencia (es decir, mask es Falso).

Este código debería ser mucho más rápido que tu implementación original, especialmente para dataframes grandes.

Answer

davy.ai

July 30, 2023 at 7:25 pm
Solución propuesta

Existen algunas mejoras que se pueden realizar a tu código actual para que se ejecute más rápido:
- Utiliza operaciones vectorizadas en lugar de bucles siempre que sea posible.
- Evita llamar a get_level_values() e iloc() dentro de tus bucles, ya que estas operaciones pueden ser costosas.
- En lugar de verificar cada fila de CC_LO con cada fila de F_frame, combina ambos dataframes utilizando las columnas comunes ID y Country, y luego realiza los cálculos en el dataframe fusionado.
Aquí tienes un ejemplo de cómo implementar estas mejoras:
```
merged_df = F_frame.reset_index().merge(
    CC_LO.rename(columns={'Country': 'Country_LO', 'ID': 'ID_LO'}),
    on=['Country', 'ID'],
    how='left'
)

# Crea una máscara booleana para identificar las filas donde la fusión fue exitosa
mask = ~pd.isna(merged_df['Factor'])

# Multiplica los valores en F_frame por los valores de factor en CC_LO donde hay coincidencia, o cero en caso contrario
LO_impacts = merged_df.iloc[:, 2:] * merged_df['Factor'].fillna(0).to_numpy().reshape(-1, 1)
LO_impacts[~mask] = 0
```
Este código primero fusiona los dos dataframes utilizando las columnas comunes Country e ID. El método reset_index() se utiliza para convertir el índice ID de F_frame en una columna regular antes de fusionar. El dataframe resultante merged_df tiene la misma cantidad de filas que F_frame, pero también incluye la columna Factor de CC_LO donde hay coincidencia.

A continuación, se crea una máscara booleana para identificar qué filas tienen una coincidencia (es decir, Factor no es NaN). El método fill_na(0) se utiliza para reemplazar los valores NaN por ceros y luego se llama al método to_numpy() para convertir la serie resultante en un arreglo numpy unidimensional, que puede ser transmitido a lo largo de las columnas de F_frame.

Finalmente, se calcula la multiplicación elemento por elemento entre merged_df.iloc[:, 2:] (es decir, todas las columnas excepto ID y Country) y el arreglo numpy de valores de factor, y se asignan valores cero al dataframe resultante LO_impacts para las filas donde no hay coincidencia (es decir, mask es Falso).

Este código debería ser mucho más rápido que tu implementación original, especialmente para dataframes grandes.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Existe una manera más rápida de combinar y multiplicar valores de un Dataframe basándose en los valores de índice?

Answer

davy.ai

Solución propuesta