MIGRAR LA FUNCIÓN PIVOT ASTER A LA FUNCIÓN HIVE

davy.ai

June 17, 2023 at 7:07 am

Solución

Para migrar el script de Aster a Hive, primero es necesario entender cómo se define el valor en la columna del script.

La declaración CREATE TABLE crea una nueva tabla llamada coll_ledger_cashfprofile_ta con las columnas y tipos de datos definidos en la subconsulta. La subconsulta utiliza la función PIVOT para transformar las columnas de la tabla coll_ledger_cashfprofile_tb en filas en la tabla coll_ledger_cashfprofile_ta. La cláusula PARTITION BY especifica cómo debe dividirse la información mientras que la cláusula ORDER BY especifica el ordenamiento de la información.

Para modificar este script para que funcione en Hive, es necesario reescribir la función PIVOT utilizando las funciones integradas de Hive o una función definida por el usuario (UDF) que realice la misma transformación. Hive no tiene una función PIVOT integrada, por lo que es necesario escribir una consulta personalizada para lograr la misma funcionalidad.

Aquí se muestra un ejemplo de cómo se puede modificar el script:

CREATE TABLE coll_ledger_cashfprofile_ta (
  it_ref_no string,
  file_type string,
  comb_id string,
  startyear string,
  moorder int,
  cum_cashflow double,
  relcum_cf double,
  relcum_cinf double
) PARTITIONED BY (it_ref_no, file_type, comb_id, startyear)
CLUSTERED BY (it_ref_no) INTO 4 BUCKETS;

INSERT OVERWRITE TABLE coll_ledger_cashfprofile_ta PARTITION (it_ref_no, file_type, comb_id, startyear)
SELECT it_ref_no, file_type, comb_id, startyear, moorder,
  MAX(CASE WHEN metric = 'cum_cashflow' THEN value END) AS cum_cashflow,
  MAX(CASE WHEN metric = 'relcum_cf' THEN value END) AS relcum_cf,
  MAX(CASE WHEN metric = 'relcum_cinf' THEN value END) AS relcum_cinf
FROM coll_ledger_cashfprofile_tb
GROUP BY it_ref_no, file_type, comb_id, startyear, moorder;

Esta consulta crea una nueva tabla llamada coll_ledger_cashfprofile_ta y divide los datos por it_ref_no, file_type, comb_id y startyear. Luego selecciona las columnas necesarias de la tabla coll_ledger_cashfprofile_tb y transforma las filas en columnas mediante la declaración CASE. Finalmente, utiliza GROUP BY para agrupar los datos por las columnas especificadas e inserta los resultados en la nueva tabla.

Dependiendo de la complejidad y el tamaño de sus datos, es posible que sea necesario optimizar aún más esta consulta utilizando técnicas como la segmentación por cubetas o la ordenación para mejorar el rendimiento de la consulta.

Answer

davy.ai

June 17, 2023 at 7:07 am
Solución

Para migrar el script de Aster a Hive, primero es necesario entender cómo se define el valor en la columna del script.

La declaración CREATE TABLE crea una nueva tabla llamada coll_ledger_cashfprofile_ta con las columnas y tipos de datos definidos en la subconsulta. La subconsulta utiliza la función PIVOT para transformar las columnas de la tabla coll_ledger_cashfprofile_tb en filas en la tabla coll_ledger_cashfprofile_ta. La cláusula PARTITION BY especifica cómo debe dividirse la información mientras que la cláusula ORDER BY especifica el ordenamiento de la información.

Para modificar este script para que funcione en Hive, es necesario reescribir la función PIVOT utilizando las funciones integradas de Hive o una función definida por el usuario (UDF) que realice la misma transformación. Hive no tiene una función PIVOT integrada, por lo que es necesario escribir una consulta personalizada para lograr la misma funcionalidad.

Aquí se muestra un ejemplo de cómo se puede modificar el script:
```
CREATE TABLE coll_ledger_cashfprofile_ta (
  it_ref_no string,
  file_type string,
  comb_id string,
  startyear string,
  moorder int,
  cum_cashflow double,
  relcum_cf double,
  relcum_cinf double
) PARTITIONED BY (it_ref_no, file_type, comb_id, startyear)
CLUSTERED BY (it_ref_no) INTO 4 BUCKETS;

INSERT OVERWRITE TABLE coll_ledger_cashfprofile_ta PARTITION (it_ref_no, file_type, comb_id, startyear)
SELECT it_ref_no, file_type, comb_id, startyear, moorder,
  MAX(CASE WHEN metric = 'cum_cashflow' THEN value END) AS cum_cashflow,
  MAX(CASE WHEN metric = 'relcum_cf' THEN value END) AS relcum_cf,
  MAX(CASE WHEN metric = 'relcum_cinf' THEN value END) AS relcum_cinf
FROM coll_ledger_cashfprofile_tb
GROUP BY it_ref_no, file_type, comb_id, startyear, moorder;
```
Esta consulta crea una nueva tabla llamada coll_ledger_cashfprofile_ta y divide los datos por it_ref_no, file_type, comb_id y startyear. Luego selecciona las columnas necesarias de la tabla coll_ledger_cashfprofile_tb y transforma las filas en columnas mediante la declaración CASE. Finalmente, utiliza GROUP BY para agrupar los datos por las columnas especificadas e inserta los resultados en la nueva tabla.

Dependiendo de la complejidad y el tamaño de sus datos, es posible que sea necesario optimizar aún más esta consulta utilizando técnicas como la segmentación por cubetas o la ordenación para mejorar el rendimiento de la consulta.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

MIGRAR LA FUNCIÓN PIVOT ASTER A LA FUNCIÓN HIVE

Answer

davy.ai

Solución