es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: AWS-GLUE-SPARK

Cómo combinar los valores de dos columnas en otra columna usando Pyspark?

Este es el código que estoy utilizando para mapear valores de un archivo CSV a una tabla en SQL en AWS Glue. mappings=[ (“houseA”, “string”, “villa”, “string”), (“houseB”, “string”, “small_house”, “string”), (“houseAhouseB”, “string”, “combined_key”, “string”), ], No encuentro ningún problema al mapear houseA y houseB a las columnas “villa” y . . . Read more

Importación de datos desde MongoDB: columnas duplicadas.

Estoy intentando importar datos de MongoDB a un trabajo de AWS Glue y luego a Redshift, pero al realizar la carga desde MongoDB obtengo esta extraña excepción, ¿hay alguna manera de solucionar este problema? AnálisisException: Se encontraron columnas duplicadas en el esquema de datos: column1, column2, column3 Después de buscar . . . Read more

Añadiendo columna al DataFrame

Necesito agregar una nueva columna a DataFrame (DynamicFrame) basado en datos json de otra columna ¿Cuál es la mejor manera de hacerlo? Esquema: ‘id’ ‘name’ ‘customJson’ 1, John, {‘key’:’lastName’,’value’:’Smith’} Después: ‘id’ ‘name’ ‘lastName’ ‘customJson’ 1, John, Smith, {‘key’:’lastName’,’value’:’Smith’} Intenté con withColumn pero no estoy seguro de cómo obtener y calcular . . . Read more

La ejecución del trabajo de AWS Glue falló – no se encuentra disponible el módulo log4j-web.

Escribí el siguiente script para ejecutar un trabajo de Glue: import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job from pyspark.sql.functions import * from awsglue.dynamicframe import DynamicFrame args = getResolvedOptions(sys.argv, [‘JOB_NAME’]) sc = SparkContext() glueContext = GlueContext(sc) . . . Read more