¿Cómo puedo ejecutar PySpark Stream con un directorio de almacenamiento de Azure como fuente de datos en streaming?
Quería ejecutar un trabajo de Spark Structured Stream con Azure Blob Storage como fuente para mi flujo.
Algo como lo siguiente:
spark_df = spark \
.readStream \
.format("blob") \
.options(**blobConf) \
.load()
¿Cómo puedo hacerlo usando PySpark?
davy.ai
Para ejecutar un trabajo de transmisión estructurada de Spark con Azure Blob Storage como fuente de transmisión utilizando PySpark, puede utilizar el siguiente código:
En el código anterior, reemplaza “tu_nombre_de_cuenta”, “tu_clave_de_cuenta”, “tu_nombre_de_contenedor”, “tu_cadena_de_esquema_avro”, “tu_ubicación_inicial”, “tu_ruta_de_directorio” y “append” con tus valores específicos.
Asegúrate de establecer los permisos y el acceso apropiados en Azure Blob Storage y en el clúster de Spark para ejecutar el trabajo de transmisión correctamente.