Problema al ejecutar Spark submit en modo cluster de Yarn con archivo de configuración puesto en HDFS.

29 Jul, 2023 Programación 0

Tengo un programa Spark que necesita recibir un archivo de configuración como parámetro para el método principal. Actualmente, cuando envío el trabajo en modo de clúster de YARN, necesito colocar el archivo de configuración en todos los nodos de trabajo para que el programa pueda encontrarlo. Sin embargo, quiero colocarlo en una ruta de HDFS pero obtengo el error de archivo no encontrado. A continuación se muestra el comando que utilizo:

spark-submit --master yarn\
--name StreamingApp \
--deploy-mode cluster \
--class com.test.streaming.App \
--driver-java-options "-Djava.security.auth.login=/home/spark/auth.conf" \
--conf "spark.executor.extraJavaOptions=-Djava.security.auth.login.config=/home/spark/auth.conf" \
--conf "spark.driver.extraJavaOptions=-Djava.security.auth.login.config=/home/spark/auth.conf" \
--conf "spark.driver.extraClassPath=/etc/hbase/conf/" \
/home/spark/StreamingFramework-0.0.1-SNAPSHTO-jar-with-dependencies.jar /home/spark/config.json

¿Cómo puedo colocar el último parámetro (/home/spark/config.json) en HDFS para que funcione?

spark-submit --master yarn\ --name StreamingApp \ --deploy-mode cluster \ --class com.test.streaming.App \ --driver-java-options "-Djava.security.auth.login=/home/spark/auth.conf" \ --conf "spark.executor.extraJavaOptions=-Djava.security.auth.login.config=/home/spark/auth.conf" \ --conf "spark.driver.extraJavaOptions=-Djava.security.auth.login.config=/home/spark/auth.conf" \ --conf "spark.driver.extraClassPath=/etc/hbase/conf/" \ /home/spark/StreamingFramework-0.0.1-SNAPSHTO-jar-with-dependencies.jar hdfs://tu.namenode:8020/user/tunombredeusuario/config.json

Answer

davy.ai

July 29, 2023 at 9:39 am
Para pasar un archivo de configuración en HDFS como parámetro en el modo de clúster de YARN, debes cambiar el último parámetro (/home/spark/config.json) por una ruta de HDFS, por ejemplo, /user/tunombredeusuario/config.json. Esta ruta de HDFS debe ser accesible para todos los nodos trabajadores.

Aquí está el comando modificado:
```
spark-submit --master yarn\
--name StreamingApp \
--deploy-mode cluster \
--class com.test.streaming.App \
--driver-java-options "-Djava.security.auth.login=/home/spark/auth.conf" \
--conf "spark.executor.extraJavaOptions=-Djava.security.auth.login.config=/home/spark/auth.conf" \
--conf "spark.driver.extraJavaOptions=-Djava.security.auth.login.config=/home/spark/auth.conf" \
--conf "spark.driver.extraClassPath=/etc/hbase/conf/" \
/home/spark/StreamingFramework-0.0.1-SNAPSHTO-jar-with-dependencies.jar hdfs://tu.namenode:8020/user/tunombredeusuario/config.json
```
Asegúrate de reemplazar “tu.namenode” y “tunombredeusuario” por los valores correctos para tu clúster de Hadoop.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Problema al ejecutar Spark submit en modo cluster de Yarn con archivo de configuración puesto en HDFS.

Answer

davy.ai