es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo se envían los trabajos de spark en modo de clúster?

Sé que hay información que equivale a 10 páginas de Google sobre esto, pero todas me dicen que simplemente coloque --master yarn en el comando spark-submit. Pero, en modo de clúster, ¿cómo puede mi computadora local saber lo que eso significa? Digamos que tengo mi computadora portátil y un clúster de dataproc en funcionamiento. ¿Cómo puedo usar spark-submit desde mi computadora portátil para enviar un trabajo a este clúster?

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Para enviar un trabajo a un clúster de Dataproc utilizando spark-submit desde tu computadora local, debes seguir los siguientes pasos:

    1. Configura un proyecto de GCP y crea un clúster de Dataproc con la configuración necesaria según tus requisitos.
    2. Sube tu código de aplicación PySpark y los datos a un bucket de Google Cloud Storage.
    3. Asegúrate de que tu computadora local tenga los permisos y autorizaciones necesarios para acceder al clúster de Dataproc, al proyecto de GCP y al bucket de almacenamiento.
    4. Conéctate por SSH al clúster de Dataproc (usando la nube de GCP Shell, si es necesario) e instala Spark (si aún no está instalado).
    5. Crea un script para enviar tu trabajo al clúster. El script debe contener el siguiente comando:
    gcloud dataproc jobs submit pyspark gs://ruta/a/tu/archivo.py --cluster=nombre-del-clúster --region=región --jars=gs://ruta/a/tus/archivos.jar -- --arg1 val1 --arg2 val2
    

    Donde:
    gs://ruta/a/tu/archivo.py es la ruta de tu código de aplicación PySpark en el bucket de Google Cloud Storage.
    --cluster=nombre-del-clúster es el nombre de tu clúster de Dataproc.
    --region=región es la región donde se encuentra el clúster de Dataproc.
    --jars=gs://ruta/a/tus/archivos.jar es la ruta de los archivos JAR requeridos por tu aplicación PySpark.
    -- --arg1 val1 --arg2 val2 son los argumentos para tu aplicación PySpark.

    1. Ejecuta el script desde el clúster de Dataproc utilizando sh nombre_del_script.sh.
    2. Tu aplicación PySpark se ejecutará en el clúster de Dataproc y la salida se almacenará en el bucket de almacenamiento especificado.

    Siguiendo estos pasos, podrás enviar tu aplicación PySpark al clúster de Dataproc desde tu computadora local.

Comments are closed.