Tag: GOOGLE-CLOUD-DATAPROC

Conecte la sesión de PySpark a DataProc

31 Jul, 2023 Programación 0

Estoy intentando conectar una sesión de PySpark que se está ejecutando localmente a un clúster de DataProc. Quiero poder trabajar con archivos en gcs sin tener que descargarlos. Mi objetivo es realizar análisis ad hoc utilizando Spark local y luego cambiar a un clúster más grande cuando esté listo para . . . Read more

Dataproc: cómo ejecutar un script de acciones de inicialización solo en el nodo principal y omitir su ejecución en los nodos de trabajo.

31 Jul, 2023 Programación 0

Tengo un caso de uso en el que quiero utilizar acciones de inicialización en Dataproc para ejecutar un script que instalará los elementos necesarios. He utilizado algunos scripts de acciones de inicialización en Dataproc que funcionan bien e instalan tanto en el nodo maestro como en los nodos de trabajo. . . . Read more

¿Cómo configuro sparkmagic para trabajar con DataProc a través de Livy?

30 Jul, 2023 Programación 0

Tengo un clúster de DataProc en funcionamiento en GCP. Ejecuté el script de inicialización de Livy para ello, y puedo acceder al enlace livy/sessions a través de la interfaz de puerta de enlace. Tengo la siguiente configuración para mi archivo config.json de sparkmagic: { “kernel_python_credentials” : { “auth”: “None”, “url”: . . . Read more

Ejecutar un proceso de fusión de datos solo cuando exista un archivo.

27 Jul, 2023 Programación 0

Ya tengo un flujo de trabajo funcional en Data Fusion que realiza todo el proceso de ETL, pero necesito que solo se ejecute cuando encuentre un archivo llamado SUCCESS.txt ubicado en un bucket de almacenamiento en la nube. ¿Esto es posible? En otras plataformas solía utilizar un observador de archivos . . . Read more

¿Por qué es obligatorio añadir la dependencia org.apache.spark.avro para leer/escribir archivos avro en Spark2.4 si estoy utilizando com.databricks.spark.avro?

23 Jul, 2023 Programación 0

Intenté ejecutar mi código de Spark/Scala 2.3.0 en un clúster de Cloud Dataproc 1.4 donde está instalado Spark 2.4.8. Me encontré con un error relacionado con la lectura de archivos avro. Aquí está mi código: sparkSession.read.format(“com.databricks.spark.avro”).load(input) Este código falló como se esperaba. Luego agregué esta dependencia a mi archivo pom.xml: . . . Read more

1 2 3 … 5

es.davy.ai

¿Tienes una pregunta?