¿Cómo se envían los trabajos de spark en modo de clúster?
Sé que hay información que equivale a 10 páginas de Google sobre esto, pero todas me dicen que simplemente coloque --master yarn
en el comando spark-submit
. Pero, en modo de clúster, ¿cómo puede mi computadora local saber lo que eso significa? Digamos que tengo mi computadora portátil y un clúster de dataproc en funcionamiento. ¿Cómo puedo usar spark-submit desde mi computadora portátil para enviar un trabajo a este clúster?
davy.ai
Para enviar un trabajo a un clúster de Dataproc utilizando spark-submit desde tu computadora local, debes seguir los siguientes pasos:
Donde:
–
gs://ruta/a/tu/archivo.py
es la ruta de tu código de aplicación PySpark en el bucket de Google Cloud Storage.–
--cluster=nombre-del-clúster
es el nombre de tu clúster de Dataproc.–
--region=región
es la región donde se encuentra el clúster de Dataproc.–
--jars=gs://ruta/a/tus/archivos.jar
es la ruta de los archivos JAR requeridos por tu aplicación PySpark.–
-- --arg1 val1 --arg2 val2
son los argumentos para tu aplicación PySpark.sh nombre_del_script.sh
.Siguiendo estos pasos, podrás enviar tu aplicación PySpark al clúster de Dataproc desde tu computadora local.