Tag: GOOGLE-CLOUD-DATAPROC
Estoy intentando conectar una sesión de PySpark que se está ejecutando localmente a un clúster de DataProc. Quiero poder trabajar con archivos en gcs sin tener que descargarlos. Mi objetivo es realizar análisis ad hoc utilizando Spark local y luego cambiar a un clúster más grande cuando esté listo para . . . Read more
Tengo un caso de uso en el que quiero utilizar acciones de inicialización en Dataproc para ejecutar un script que instalará los elementos necesarios. He utilizado algunos scripts de acciones de inicialización en Dataproc que funcionan bien e instalan tanto en el nodo maestro como en los nodos de trabajo. . . . Read more
Tengo un clúster de DataProc en funcionamiento en GCP. Ejecuté el script de inicialización de Livy para ello, y puedo acceder al enlace livy/sessions a través de la interfaz de puerta de enlace. Tengo la siguiente configuración para mi archivo config.json de sparkmagic: { “kernel_python_credentials” : { “auth”: “None”, “url”: . . . Read more
Ya tengo un flujo de trabajo funcional en Data Fusion que realiza todo el proceso de ETL, pero necesito que solo se ejecute cuando encuentre un archivo llamado SUCCESS.txt ubicado en un bucket de almacenamiento en la nube. ¿Esto es posible? En otras plataformas solía utilizar un observador de archivos . . . Read more
Intenté ejecutar mi código de Spark/Scala 2.3.0 en un clúster de Cloud Dataproc 1.4 donde está instalado Spark 2.4.8. Me encontré con un error relacionado con la lectura de archivos avro. Aquí está mi código: sparkSession.read.format(“com.databricks.spark.avro”).load(input) Este código falló como se esperaba. Luego agregué esta dependencia a mi archivo pom.xml: . . . Read more