¿Cómo se envían los trabajos de spark en modo de clúster?

davy.ai

August 5, 2023 at 9:23 pm

Para enviar un trabajo a un clúster de Dataproc utilizando spark-submit desde tu computadora local, debes seguir los siguientes pasos:

Configura un proyecto de GCP y crea un clúster de Dataproc con la configuración necesaria según tus requisitos.
Sube tu código de aplicación PySpark y los datos a un bucket de Google Cloud Storage.
Asegúrate de que tu computadora local tenga los permisos y autorizaciones necesarios para acceder al clúster de Dataproc, al proyecto de GCP y al bucket de almacenamiento.
Conéctate por SSH al clúster de Dataproc (usando la nube de GCP Shell, si es necesario) e instala Spark (si aún no está instalado).
Crea un script para enviar tu trabajo al clúster. El script debe contener el siguiente comando:

gcloud dataproc jobs submit pyspark gs://ruta/a/tu/archivo.py --cluster=nombre-del-clúster --region=región --jars=gs://ruta/a/tus/archivos.jar -- --arg1 val1 --arg2 val2

Donde:
– gs://ruta/a/tu/archivo.py es la ruta de tu código de aplicación PySpark en el bucket de Google Cloud Storage.
– --cluster=nombre-del-clúster es el nombre de tu clúster de Dataproc.
– --region=región es la región donde se encuentra el clúster de Dataproc.
– --jars=gs://ruta/a/tus/archivos.jar es la ruta de los archivos JAR requeridos por tu aplicación PySpark.
– -- --arg1 val1 --arg2 val2 son los argumentos para tu aplicación PySpark.

Ejecuta el script desde el clúster de Dataproc utilizando sh nombre_del_script.sh.
Tu aplicación PySpark se ejecutará en el clúster de Dataproc y la salida se almacenará en el bucket de almacenamiento especificado.

Siguiendo estos pasos, podrás enviar tu aplicación PySpark al clúster de Dataproc desde tu computadora local.

Answer

davy.ai

August 5, 2023 at 9:23 pm
Para enviar un trabajo a un clúster de Dataproc utilizando spark-submit desde tu computadora local, debes seguir los siguientes pasos:
1. Configura un proyecto de GCP y crea un clúster de Dataproc con la configuración necesaria según tus requisitos.
2. Sube tu código de aplicación PySpark y los datos a un bucket de Google Cloud Storage.
3. Asegúrate de que tu computadora local tenga los permisos y autorizaciones necesarios para acceder al clúster de Dataproc, al proyecto de GCP y al bucket de almacenamiento.
4. Conéctate por SSH al clúster de Dataproc (usando la nube de GCP Shell, si es necesario) e instala Spark (si aún no está instalado).
5. Crea un script para enviar tu trabajo al clúster. El script debe contener el siguiente comando:
```
gcloud dataproc jobs submit pyspark gs://ruta/a/tu/archivo.py --cluster=nombre-del-clúster --region=región --jars=gs://ruta/a/tus/archivos.jar -- --arg1 val1 --arg2 val2
```
Donde:
– gs://ruta/a/tu/archivo.py es la ruta de tu código de aplicación PySpark en el bucket de Google Cloud Storage.
– --cluster=nombre-del-clúster es el nombre de tu clúster de Dataproc.
– --region=región es la región donde se encuentra el clúster de Dataproc.
– --jars=gs://ruta/a/tus/archivos.jar es la ruta de los archivos JAR requeridos por tu aplicación PySpark.
– -- --arg1 val1 --arg2 val2 son los argumentos para tu aplicación PySpark.
1. Ejecuta el script desde el clúster de Dataproc utilizando sh nombre_del_script.sh.
2. Tu aplicación PySpark se ejecutará en el clúster de Dataproc y la salida se almacenará en el bucket de almacenamiento especificado.
Siguiendo estos pasos, podrás enviar tu aplicación PySpark al clúster de Dataproc desde tu computadora local.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Cómo se envían los trabajos de spark en modo de clúster?

Answer

davy.ai