Tag: GOOGLE-CLOUD-DATAPROC

¿Por qué Dataproc está produciendo un valor inesperado?

17 Jun, 2023 Programación 0

He creado un archivo jar que utiliza Hadoop para contar el número de bigramas que se encuentran en un conjunto de archivos de texto. Cuando ejecuto un trabajo de Hadoop en mi configuración local recibo un archivo de salida que contiene un recuento de bigramas en el archivo de texto. . . . Read more

Cómo ver los archivos de salida de un trabajo en Dataproc en la plataforma de Google Cloud.

11 Jun, 2023 Programación 0

¿Cómo puedo ver el contenido de los archivos de salida de mi trabajo en dataproc? ¿Es algo que necesito cambiar en el código que he escrito para el archivo .jar de dataproc? Este es el bucket de almacenamiento para la salida del trabajo: https://i.stack.imgur.com/Bxu02.png.

Creando un clúster de Dataproc con múltiples JARs.

10 Jun, 2023 Programación 0

Estoy intentando crear un clúster dataproc que conectará dataproc a Pub/Sub. Necesito agregar varios archivos .jar en la creación del clúster en la bandera spark.jars. gcloud dataproc clusters create cluster-2c76 –region us-central1 –zone us-central1-f –master-machine-type n1-standard-4 \ –master-boot-disk-size 500 \ –num-workers 2 \ –worker-machine-type n1-standard-4 \ –worker-boot-disk-size 500 \ –image-version . . . Read more

Cómo establecer el usuario predeterminado de Jupyter para Pyspark en GCP Dataproc

05 Jun, 2023 Programación 0

En un cuaderno de Jupyter conectado a un clúster de Spark de GCP, la celda !pip3 install pyLDAvis==3.2.1 funciona, pero muestra una advertencia: ADVERTENCIA: Ejecutar pip como usuario 'root' puede resultar en permisos incorrectos y conflicto con el gestor de paquetes del sistema. Se recomienda el uso de un entorno . . . Read more

Cómo agregar el conector de bigquery a un clúster existente en dataproc.

04 Jun, 2023 Programación 0

Acabo de empezar a usar dataproc para hacer aprendizaje automático en big data en bigquery. Cuando intento ejecutar este código: df = spark.read.format(‘bigquery’).load(‘bigquery-public-data.samples.shakespeare’) Recibo un error con una parte como esta: java.lang.ClassNotFoundException: Error al encontrar el origen de datos: bigquery. Encuentra los paquetes en http://spark.apache.org/third-party-projects.html Encontré algunos tutoriales como en . . . Read more

1 … 3 4 5

es.davy.ai

¿Tienes una pregunta?