Tag: AWS-GLUE-SPARK

Cómo combinar los valores de dos columnas en otra columna usando Pyspark?

15 Jul, 2023 Programación 0

Este es el código que estoy utilizando para mapear valores de un archivo CSV a una tabla en SQL en AWS Glue. mappings=[ (“houseA”, “string”, “villa”, “string”), (“houseB”, “string”, “small_house”, “string”), (“houseAhouseB”, “string”, “combined_key”, “string”), ], No encuentro ningún problema al mapear houseA y houseB a las columnas “villa” y . . . Read more

Importación de datos desde MongoDB: columnas duplicadas.

15 Jun, 2023 Programación 0

Estoy intentando importar datos de MongoDB a un trabajo de AWS Glue y luego a Redshift, pero al realizar la carga desde MongoDB obtengo esta extraña excepción, ¿hay alguna manera de solucionar este problema? AnálisisException: Se encontraron columnas duplicadas en el esquema de datos: column1, column2, column3 Después de buscar . . . Read more

Añadiendo columna al DataFrame

03 Jun, 2023 Programación 0

Necesito agregar una nueva columna a DataFrame (DynamicFrame) basado en datos json de otra columna ¿Cuál es la mejor manera de hacerlo? Esquema: ‘id’ ‘name’ ‘customJson’ 1, John, {‘key’:’lastName’,’value’:’Smith’} Después: ‘id’ ‘name’ ‘lastName’ ‘customJson’ 1, John, Smith, {‘key’:’lastName’,’value’:’Smith’} Intenté con withColumn pero no estoy seguro de cómo obtener y calcular . . . Read more

Obteniendo una cadena en lugar de una matriz de Redshift mientras transferimos datos de DocumentDb a Redshift usando Glue.

02 Jun, 2023 Programación 0

Tengo datos que contienen una matriz de cadenas en documentdb. Pero cuando los vuelco a Redshift mediante glue, toda la matriz se trata como una cadena. Sé que no hay una forma directa de convertirlo en una matriz en Redshift, ¿hay alguna otra forma de hacerlo?

La ejecución del trabajo de AWS Glue falló – no se encuentra disponible el módulo log4j-web.

26 May, 2023 Programación 0

Escribí el siguiente script para ejecutar un trabajo de Glue: import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job from pyspark.sql.functions import * from awsglue.dynamicframe import DynamicFrame args = getResolvedOptions(sys.argv, [‘JOB_NAME’]) sc = SparkContext() glueContext = GlueContext(sc) . . . Read more

1 2

es.davy.ai

¿Tienes una pregunta?