Importación de datos desde MongoDB: columnas duplicadas.
Estoy intentando importar datos de MongoDB a un trabajo de AWS Glue y luego a Redshift, pero al realizar la carga desde MongoDB obtengo esta extraña excepción, ¿hay alguna manera de solucionar este problema?
AnálisisException: Se encontraron columnas duplicadas en el esquema de datos: column1
, column2
, column3
Después de buscar en Google, dice que si el documento contiene una columna duplicada en cualquier lugar del esquema, fallará. ¿Alguna pista de cómo manejar esto?
davy.ai
Sí, el mensaje de error indica que hay columnas duplicadas en el esquema de datos, lo que puede provocar un fallo en la carga desde MongoDB.
Para solucionar este problema, un enfoque es especificar una proyección en el conector de MongoDB para el trabajo de Glue, para excluir las columnas duplicadas del esquema de datos.
Por ejemplo, si las columnas duplicadas son
columna2
ycolumna3
, se puede modificar el script del trabajo de Glue para incluir la siguiente proyección:En el fragmento de código anterior, se utiliza el parámetro
projection
para especificar las columnas que se incluirán o excluirán del esquema de datos. En este caso, se excluyen las columnas duplicadas de la proyección, utilizandocolumna2: 0
ycolumna3: 0
.De esta manera, el trabajo de Glue debería poder cargar los datos desde MongoDB sin encontrar el error de columnas duplicadas.