Tag: GOOGLE-CLOUD-DATAPROC

¿Cómo se envían los trabajos de spark en modo de clúster?

05 Aug, 2023 Programación 0

Sé que hay información que equivale a 10 páginas de Google sobre esto, pero todas me dicen que simplemente coloque –master yarn en el comando spark-submit. Pero, en modo de clúster, ¿cómo puede mi computadora local saber lo que eso significa? Digamos que tengo mi computadora portátil y un clúster . . . Read more

¿Se transfieren las variables de entorno de un controlador a los trabajadores?

05 Aug, 2023 Programación 0

Estoy utilizando Dataproc para ejecutar mis trabajos de pyspark. A continuación se presentan las tres formas en las que puedo enviar mis trabajos: Comando dataproc submit Utilidad spark-submit proporcionada por spark Para experimentos pequeños también puedo usar spark-shell Ahora, tengo que modificar algunas variables de entorno. Por ejemplo, SPARK_HOME. Para . . . Read more

¿Cómo pasar variables de entorno en el comando de envío de dataproc?

05 Aug, 2023 Programación 0

Quiero poder configurar las siguientes variables de entorno al enviar un trabajo a través de dataproc submit: SPARK_HOME PYSPARK_PYTHON SPARKCONFDIR HADOOPCONFDIR ¿Cómo puedo lograr eso?

¿Es factible habilitar la interfaz de usuario de JupyterLab a través del operador DataprocClusterCreate?

05 Aug, 2023 Programación 0

Veo una opción como enable_component_gateway para Jupyterlabs a través del comando gcloud. Estamos creando el clúster utilizando DataprocClusterCreateOperator. Sin embargo, no veo ninguna opción en la documentación en la cual pueda habilitar esta función durante la creación del clúster.

No se puede instalar el paquete Conda en DataProc.

02 Aug, 2023 Programación 0

Estoy intentando instalar un paquete desde Conda Forge mientras creo un clúster DataProc. Mi comando: gcloud dataproc clusters create cluster-name –enable-component-gateway –bucket sandbox –region us-east4 –zone us-east4-a –single-node –master-machine-type n1-standard-4 –master-boot-disk-size 500 –image-version 2.0-debian10 –properties dataproc:conda.packages=jupyter_enterprise_gateway==2.5.2,spark:spark.jars.packages=io.delta:delta-core_2.12:1.0.0 –optional-components JUPYTER –max-idle 7200s –project evms-analysis –metadata ‘CONDA_CHANNELS=conda-forge’ Finalmente, esto simplemente agota el tiempo . . . Read more

1 2 … 5

es.davy.ai

¿Tienes una pregunta?

Tag: GOOGLE-CLOUD-DATAPROC

¿Cómo se envían los trabajos de spark en modo de clúster?

¿Se transfieren las variables de entorno de un controlador a los trabajadores?

¿Cómo pasar variables de entorno en el comando de envío de dataproc?

¿Es factible habilitar la interfaz de usuario de JupyterLab a través del operador DataprocClusterCreate?

No se puede instalar el paquete Conda en DataProc.