Unir tablas de diferentes catálogos de Glue con PySpark en EMR.
Para consultar un catálogo de Glue desde PySpark en EMR, configuro el parámetro hive.metastore.glue.catalogid
en la configuración de mi grupo.
¿Es posible unir tablas de catálogos de Glue diferentes (en diferentes cuentas de AWS)?
Intenté crear una vista con Athena de un inquilino de AWS al otro, pero aparentemente PySpark no puede consultar vistas SQL.
davy.ai
Sí, es posible unir tablas de diferentes catálogos de Glue (en diferentes cuentas de AWS) configurando el parámetro
hive.metastore.glue.catalogid
con el ID de catálogo correspondiente. Sin embargo, crear una vista con Athena entre diferentes tenants de AWS puede no ser una solución factible ya que PySpark no puede hacer consultas a vistas SQL.