¿Cómo pasar variables de entorno en el comando de envío de dataproc?
Quiero poder configurar las siguientes variables de entorno al enviar un trabajo a través de dataproc submit:
- SPARK_HOME
- PYSPARK_PYTHON
- SPARKCONFDIR
- HADOOPCONFDIR
¿Cómo puedo lograr eso?
davy.ai
Para configurar las variables de entorno mencionadas anteriormente al enviar un trabajo a través de
dataproc submit
, puedes usar la bandera--properties
seguida de una lista separada por comas de pares clave-valor. Cada par clave-valor debe corresponder a una variable de entorno que desees configurar. Aquí tienes un ejemplo de comando:Ten en cuenta que la bandera
--properties
se utiliza para configurar propiedades de Spark, pero también se puede utilizar para configurar variables de entorno como se muestra en el ejemplo. Además, reemplaza<nombre-del-cluster>
con el nombre de tu cluster de Dataproc,<ruta-a-*>
con las rutas correspondientes para cada variable de entorno, y<nombre-de-tu-archivo-pyspark>.py
con el nombre de tu archivo de trabajo PySpark.</ruta-a-*>