Tag: AWS-GLUE-SPARK
Este es el código que estoy utilizando para mapear valores de un archivo CSV a una tabla en SQL en AWS Glue. mappings=[ (“houseA”, “string”, “villa”, “string”), (“houseB”, “string”, “small_house”, “string”), (“houseAhouseB”, “string”, “combined_key”, “string”), ], No encuentro ningún problema al mapear houseA y houseB a las columnas “villa” y . . . Read more
Estoy intentando importar datos de MongoDB a un trabajo de AWS Glue y luego a Redshift, pero al realizar la carga desde MongoDB obtengo esta extraña excepción, ¿hay alguna manera de solucionar este problema? AnálisisException: Se encontraron columnas duplicadas en el esquema de datos: column1, column2, column3 Después de buscar . . . Read more
Necesito agregar una nueva columna a DataFrame (DynamicFrame) basado en datos json de otra columna ¿Cuál es la mejor manera de hacerlo? Esquema: ‘id’ ‘name’ ‘customJson’ 1, John, {‘key’:’lastName’,’value’:’Smith’} Después: ‘id’ ‘name’ ‘lastName’ ‘customJson’ 1, John, Smith, {‘key’:’lastName’,’value’:’Smith’} Intenté con withColumn pero no estoy seguro de cómo obtener y calcular . . . Read more
Tengo datos que contienen una matriz de cadenas en documentdb. Pero cuando los vuelco a Redshift mediante glue, toda la matriz se trata como una cadena. Sé que no hay una forma directa de convertirlo en una matriz en Redshift, ¿hay alguna otra forma de hacerlo?
Escribí el siguiente script para ejecutar un trabajo de Glue: import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job from pyspark.sql.functions import * from awsglue.dynamicframe import DynamicFrame args = getResolvedOptions(sys.argv, [‘JOB_NAME’]) sc = SparkContext() glueContext = GlueContext(sc) . . . Read more