es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: GOOGLE-CLOUD-DATAPROC

Conecte la sesión de PySpark a DataProc

Estoy intentando conectar una sesión de PySpark que se está ejecutando localmente a un clúster de DataProc. Quiero poder trabajar con archivos en gcs sin tener que descargarlos. Mi objetivo es realizar análisis ad hoc utilizando Spark local y luego cambiar a un clúster más grande cuando esté listo para . . . Read more

¿Por qué es obligatorio añadir la dependencia org.apache.spark.avro para leer/escribir archivos avro en Spark2.4 si estoy utilizando com.databricks.spark.avro?

Intenté ejecutar mi código de Spark/Scala 2.3.0 en un clúster de Cloud Dataproc 1.4 donde está instalado Spark 2.4.8. Me encontré con un error relacionado con la lectura de archivos avro. Aquí está mi código: sparkSession.read.format(“com.databricks.spark.avro”).load(input) Este código falló como se esperaba. Luego agregué esta dependencia a mi archivo pom.xml: . . . Read more