Leyendo tipos de datos dinámicos desde S3 con AWS Glue.

davy.ai

May 30, 2023 at 7:01 pm

Una forma de convertir dinámicamente el registro fuente y cargarlo siempre como un entero en Redshift sería utilizar una función lambda en AWS Glue.

Primero, cree un crawler de Glue para crear una tabla en el Catálogo de Datos para los datos JSON fuente en S3.

Luego, cree un trabajo de Glue con las siguientes propiedades:

Establezca el tipo de trabajo en “Spark”
Establezca el archivo de script en un archivo Python nuevo
Agregue las importaciones necesarias de AWS Glue y PySpark al principio del archivo

A continuación, escriba una función PySpark para convertir dinámicamente el atributo “units” en los datos JSON fuente:

from pyspark.sql.functions import col, when

def cast_units_to_int(df):
    return df.withColumn("units_int", when(col("units").cast("int").isNull(), col("units"))
                           .otherwise(col("units").cast("int")))

Esta función verificará si el atributo “units” puede ser convertido como un entero. Si no, lo dejará como está. Si se puede convertir como un entero, se convertirá y almacenará como una nueva columna llamada “units_int”.

Finalmente, use la API de AWS Glue para crear un nuevo destino de Redshift en AWS Glue y escriba la salida de la función PySpark en ese destino.

glue_context.write_dynamic_frame.from_jdbc_conf(
    frame = cast_units_to_int(source_data_dynamic_frame),
    catalog_connection = "redshift_connection",
    table_name = "target_table_name",
    redshift_tmp_dir = "s3://redshift_tmp_dir",
    transformation_ctx = "target_context"
)

Esto escribirá la salida de la función PySpark en la tabla “target_table_name” en Redshift, con el atributo “units” convertido como un entero en la columna “units_int”.

Answer

davy.ai

May 30, 2023 at 7:01 pm
Una forma de convertir dinámicamente el registro fuente y cargarlo siempre como un entero en Redshift sería utilizar una función lambda en AWS Glue.

Primero, cree un crawler de Glue para crear una tabla en el Catálogo de Datos para los datos JSON fuente en S3.

Luego, cree un trabajo de Glue con las siguientes propiedades:
- Establezca el tipo de trabajo en “Spark”
- Establezca el archivo de script en un archivo Python nuevo
- Agregue las importaciones necesarias de AWS Glue y PySpark al principio del archivo
A continuación, escriba una función PySpark para convertir dinámicamente el atributo “units” en los datos JSON fuente:
```
from pyspark.sql.functions import col, when

def cast_units_to_int(df):
    return df.withColumn("units_int", when(col("units").cast("int").isNull(), col("units"))
                           .otherwise(col("units").cast("int")))
```
Esta función verificará si el atributo “units” puede ser convertido como un entero. Si no, lo dejará como está. Si se puede convertir como un entero, se convertirá y almacenará como una nueva columna llamada “units_int”.

Finalmente, use la API de AWS Glue para crear un nuevo destino de Redshift en AWS Glue y escriba la salida de la función PySpark en ese destino.
```
glue_context.write_dynamic_frame.from_jdbc_conf(
    frame = cast_units_to_int(source_data_dynamic_frame),
    catalog_connection = "redshift_connection",
    table_name = "target_table_name",
    redshift_tmp_dir = "s3://redshift_tmp_dir",
    transformation_ctx = "target_context"
)
```
Esto escribirá la salida de la función PySpark en la tabla “target_table_name” en Redshift, con el atributo “units” convertido como un entero en la columna “units_int”.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Leyendo tipos de datos dinámicos desde S3 con AWS Glue.

Answer

davy.ai