Tag: APACHE-SPARK
Estoy agregando metadatos personalizados en el esquema de los DataFrames en mi aplicación PySpark usando el campo de metadatos de StructField (disponible en https://issues.apache.org/jira/browse/SPARK-3569). Funcionó correctamente cuando escribí archivos parquet directamente en s3. Los metadatos personalizados estaban disponibles cuando se leían estos archivos parquet, como era de esperar. Pero no . . . Read more
Estoy haciendo la ordenación basada en ventanas para el procesamiento estructurado de Spark: val filterWindow: WindowSpec = Window .partitionBy("key") .orderBy($"time") controlDataFrame = controlDataFrame.withColumn("Make Coffee", $"value"). withColumn("datetime", date_trunc("second", current_timestamp())). withColumn("time", current_timestamp()). withColumn("temp_rank", rank().over(filterWindow)) .filter(col("temp_rank") === 1) .drop("temp_rank"). withColumn("digitalTwinId", lit(digitalTwinId)). withWatermark("datetime", "10 seconds") Estoy obteniendo time como current_timestamp() y en el esquema . . . Read more
Después de la finalización de un trabajo de Spark (el trabajo de Spark puede cargar los archivos en S3 con éxito), Yarn muestra que el trabajo está completo en la interfaz de usuario de Yarn, pero EMR muestra que el paso todavía está en ejecución (en la consola de AWS . . . Read more
Estoy intentando probar KafkaIO para el Código de Apache Beam con un Runner de Spark. El código funciona bien con un Runner Directo. Sin embargo, si agrego la siguiente línea de código, arroja un error: Error: ERROR org.apache.spark.executor.Executor: Exception in task 0.0 in stage 2.0 (TID 0) java.lang.StackOverflowError at java.base/java.io.ObjectInputStream$BlockDataInputStream.readByte(ObjectInputStream.java:3307) . . . Read more
Necesito acceder a los alcances de secretos definidos en Databricks dentro del Servidor RStudio que se ejecuta en un clúster de databricks. ¿Cómo puedo acceder a la función dbutils.secrets.get desde RStudio Server en Databricks?