Tag: GOOGLE-CLOUD-DATAPROC
Sé que hay información que equivale a 10 páginas de Google sobre esto, pero todas me dicen que simplemente coloque –master yarn en el comando spark-submit. Pero, en modo de clúster, ¿cómo puede mi computadora local saber lo que eso significa? Digamos que tengo mi computadora portátil y un clúster . . . Read more
Estoy utilizando Dataproc para ejecutar mis trabajos de pyspark. A continuación se presentan las tres formas en las que puedo enviar mis trabajos: Comando dataproc submit Utilidad spark-submit proporcionada por spark Para experimentos pequeños también puedo usar spark-shell Ahora, tengo que modificar algunas variables de entorno. Por ejemplo, SPARK_HOME. Para . . . Read more
Quiero poder configurar las siguientes variables de entorno al enviar un trabajo a través de dataproc submit: SPARK_HOME PYSPARK_PYTHON SPARKCONFDIR HADOOPCONFDIR ¿Cómo puedo lograr eso?
Veo una opción como enable_component_gateway para Jupyterlabs a través del comando gcloud. Estamos creando el clúster utilizando DataprocClusterCreateOperator. Sin embargo, no veo ninguna opción en la documentación en la cual pueda habilitar esta función durante la creación del clúster.
Estoy intentando instalar un paquete desde Conda Forge mientras creo un clúster DataProc. Mi comando: gcloud dataproc clusters create cluster-name –enable-component-gateway –bucket sandbox –region us-east4 –zone us-east4-a –single-node –master-machine-type n1-standard-4 –master-boot-disk-size 500 –image-version 2.0-debian10 –properties dataproc:conda.packages=jupyter_enterprise_gateway==2.5.2,spark:spark.jars.packages=io.delta:delta-core_2.12:1.0.0 –optional-components JUPYTER –max-idle 7200s –project evms-analysis –metadata ‘CONDA_CHANNELS=conda-forge’ Finalmente, esto simplemente agota el tiempo . . . Read more