Tag: GOOGLE-CLOUD-DATAPROC
He creado un archivo jar que utiliza Hadoop para contar el número de bigramas que se encuentran en un conjunto de archivos de texto. Cuando ejecuto un trabajo de Hadoop en mi configuración local recibo un archivo de salida que contiene un recuento de bigramas en el archivo de texto. . . . Read more
¿Cómo puedo ver el contenido de los archivos de salida de mi trabajo en dataproc? ¿Es algo que necesito cambiar en el código que he escrito para el archivo .jar de dataproc? Este es el bucket de almacenamiento para la salida del trabajo: https://i.stack.imgur.com/Bxu02.png.
Estoy intentando crear un clúster dataproc que conectará dataproc a Pub/Sub. Necesito agregar varios archivos .jar en la creación del clúster en la bandera spark.jars. gcloud dataproc clusters create cluster-2c76 –region us-central1 –zone us-central1-f –master-machine-type n1-standard-4 \ –master-boot-disk-size 500 \ –num-workers 2 \ –worker-machine-type n1-standard-4 \ –worker-boot-disk-size 500 \ –image-version . . . Read more
En un cuaderno de Jupyter conectado a un clúster de Spark de GCP, la celda !pip3 install pyLDAvis==3.2.1 funciona, pero muestra una advertencia: ADVERTENCIA: Ejecutar pip como usuario 'root' puede resultar en permisos incorrectos y conflicto con el gestor de paquetes del sistema. Se recomienda el uso de un entorno . . . Read more
Acabo de empezar a usar dataproc para hacer aprendizaje automático en big data en bigquery. Cuando intento ejecutar este código: df = spark.read.format(‘bigquery’).load(‘bigquery-public-data.samples.shakespeare’) Recibo un error con una parte como esta: java.lang.ClassNotFoundException: Error al encontrar el origen de datos: bigquery. Encuentra los paquetes en http://spark.apache.org/third-party-projects.html Encontré algunos tutoriales como en . . . Read more