es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Expandir la información en un dataframe y vincularla con datos de otro.

Digamos que tengo un dataframe de la siguiente manera:

df1

Índice   Id
ABC     [1227, 33234]
DEF     [112, 323, 2223, 231239]
GHI     [9238294, 213, 2398219]

Y otro dataframe:

df2

Id        variable
112       500
213       78073
323       10000000
1227      12
...
9238294   906

Mi objetivo es expandir df1[‘Id’] para conectarlo con el valor respectivo de df2[‘variable’] y así realizar comparaciones entre los valores de las variables de df2 para cada índice de df1.

Los datos disponibles tienen un volumen grande.

¿Cuál es la forma más eficiente de expandir la información de df1 y asignar el valor de df2[‘variable’]?

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Una forma eficiente de expandir información y vincular variables de los dos DataFrames sería utilizar la función merge de pandas para unir los DataFrames en la columna común ‘Id’. Esto crearía un nuevo DataFrame con todas las variables y sus respectivos valores.

    El código para hacer esto se vería así:

    merged_df = pd.merge(df1, df2, on='Id')
    

    El DataFrame resultante, ‘merged_df’, tendría las siguientes columnas:

    • Índice
    • Id
    • variable

    A partir de aquí, puedes utilizar las funciones de pandas para realizar comparaciones en los valores de la columna ‘variable’ para cada ‘Índice’. La eficiencia de este proceso dependerá del tamaño de los DataFrames y de la complejidad de las comparaciones que se realicen.

    Si los DataFrames son extremadamente grandes, puedes considerar el uso de frameworks de computación distribuida como Apache Spark para paralelizar los procesos de fusión y comparación.

Comments are closed.