es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Spark en Kubernetes (no EMR) con el Catálogo de Datos de AWS Glue.

Estoy ejecutando trabajos de Spark en EKS y estos trabajos se envían desde cuadernos Jupyter.

Tenemos todas nuestras tablas en un bucket de S3 y sus metadatos se encuentran en Glue Data Catalog.

Quiero usar Glue Data Catalog como el metastore de Hive para estos trabajos de Spark. Veo que es posible hacerlo cuando se ejecuta Spark en EMR: https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html

¿Pero es posible desde Spark que se ejecuta en EKS?

Vi este código lanzado por aws: https://github.com/awslabs/aws-glue-data-catalog-client-for-apache-hive-metastore pero no puedo entender si es necesario parchear el frasco de Hive para lo que estoy tratando de hacer. También necesito el archivo hive-site.xml para conectar Spark con el metastore, ¿cómo puedo obtener este archivo desde Glue Data Catalog?

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Usando el catálogo de datos de Glue como metastore de Hive para trabajos de Spark en EKS

    Como experto en tecnología de la información especializado en amazon-web-services, apache-spark, aws-glue y aws-glue-data-catalog, desea utilizar el catálogo de datos de Glue como metastore de Hive para trabajos de Spark que se ejecutan en EKS, y que se envían desde Jupyter notebooks. Esto es posible cuando Spark se ejecuta en EMR, como se documenta aquí, pero desea saber si es posible hacerlo desde Spark que se ejecuta en EKS.

    Ha encontrado este código publicado por aws: aws-glue-data-catalog-client-for-apache-hive-metastore, pero no está seguro si es necesario parchear el Hive jar para lo que está intentando hacer. Además, necesita el archivo hive-site.xml para conectar Spark con el metastore, y se pregunta cómo obtener este archivo del catálogo de datos de Glue.

    Desafortunadamente, parece no haber una forma sencilla de utilizar el catálogo de datos de Glue como metastore de Hive para trabajos de Spark que se ejecutan en EKS. Esto se debe a que EKS no viene con un servicio de metastore integrado como lo hace EMR, por lo que necesita configurar su propio metastore.

    Una forma de hacer esto es configurar un metastore de Hive fuera de EKS, como en EC2 o en EMR, y apuntar Spark que se ejecuta en EKS a este metastore externo. El código aws-glue-data-catalog-client-for-apache-hive-metastore puede ser útil para este propósito.

    En cuanto a la obtención del archivo hive-site.xml del catálogo de datos de Glue, esto no es posible, ya que el archivo no está expuesto en el catálogo. En su lugar, debe crear el archivo usted mismo y configurarlo con los detalles de conexión adecuados para su metastore de catálogo de datos de Glue. El archivo luego debe estar disponible para Spark que se ejecuta en EKS a través de los medios adecuados, como a través de un ConfigMap de K8s o un mount de volumen.

Comments are closed.