Spark en Kubernetes (no EMR) con el Catálogo de Datos de AWS Glue.

davy.ai

June 18, 2023 at 5:32 pm

Usando el catálogo de datos de Glue como metastore de Hive para trabajos de Spark en EKS

Como experto en tecnología de la información especializado en amazon-web-services, apache-spark, aws-glue y aws-glue-data-catalog, desea utilizar el catálogo de datos de Glue como metastore de Hive para trabajos de Spark que se ejecutan en EKS, y que se envían desde Jupyter notebooks. Esto es posible cuando Spark se ejecuta en EMR, como se documenta aquí, pero desea saber si es posible hacerlo desde Spark que se ejecuta en EKS.

Ha encontrado este código publicado por aws: aws-glue-data-catalog-client-for-apache-hive-metastore, pero no está seguro si es necesario parchear el Hive jar para lo que está intentando hacer. Además, necesita el archivo hive-site.xml para conectar Spark con el metastore, y se pregunta cómo obtener este archivo del catálogo de datos de Glue.

Desafortunadamente, parece no haber una forma sencilla de utilizar el catálogo de datos de Glue como metastore de Hive para trabajos de Spark que se ejecutan en EKS. Esto se debe a que EKS no viene con un servicio de metastore integrado como lo hace EMR, por lo que necesita configurar su propio metastore.

Una forma de hacer esto es configurar un metastore de Hive fuera de EKS, como en EC2 o en EMR, y apuntar Spark que se ejecuta en EKS a este metastore externo. El código aws-glue-data-catalog-client-for-apache-hive-metastore puede ser útil para este propósito.

En cuanto a la obtención del archivo hive-site.xml del catálogo de datos de Glue, esto no es posible, ya que el archivo no está expuesto en el catálogo. En su lugar, debe crear el archivo usted mismo y configurarlo con los detalles de conexión adecuados para su metastore de catálogo de datos de Glue. El archivo luego debe estar disponible para Spark que se ejecuta en EKS a través de los medios adecuados, como a través de un ConfigMap de K8s o un mount de volumen.

Answer

davy.ai

June 18, 2023 at 5:32 pm

Usando el catálogo de datos de Glue como metastore de Hive para trabajos de Spark en EKS

Como experto en tecnología de la información especializado en amazon-web-services, apache-spark, aws-glue y aws-glue-data-catalog, desea utilizar el catálogo de datos de Glue como metastore de Hive para trabajos de Spark que se ejecutan en EKS, y que se envían desde Jupyter notebooks. Esto es posible cuando Spark se ejecuta en EMR, como se documenta aquí, pero desea saber si es posible hacerlo desde Spark que se ejecuta en EKS.

Ha encontrado este código publicado por aws: aws-glue-data-catalog-client-for-apache-hive-metastore, pero no está seguro si es necesario parchear el Hive jar para lo que está intentando hacer. Además, necesita el archivo hive-site.xml para conectar Spark con el metastore, y se pregunta cómo obtener este archivo del catálogo de datos de Glue.

Desafortunadamente, parece no haber una forma sencilla de utilizar el catálogo de datos de Glue como metastore de Hive para trabajos de Spark que se ejecutan en EKS. Esto se debe a que EKS no viene con un servicio de metastore integrado como lo hace EMR, por lo que necesita configurar su propio metastore.

Una forma de hacer esto es configurar un metastore de Hive fuera de EKS, como en EC2 o en EMR, y apuntar Spark que se ejecuta en EKS a este metastore externo. El código aws-glue-data-catalog-client-for-apache-hive-metastore puede ser útil para este propósito.

En cuanto a la obtención del archivo hive-site.xml del catálogo de datos de Glue, esto no es posible, ya que el archivo no está expuesto en el catálogo. En su lugar, debe crear el archivo usted mismo y configurarlo con los detalles de conexión adecuados para su metastore de catálogo de datos de Glue. El archivo luego debe estar disponible para Spark que se ejecuta en EKS a través de los medios adecuados, como a través de un ConfigMap de K8s o un mount de volumen.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Spark en Kubernetes (no EMR) con el Catálogo de Datos de AWS Glue.

Answer

davy.ai