Tag: APACHE-SPARK

Añadir metadatos personalizados al esquema de DataFrame utilizando el formato de tabla iceberg.

29 May, 2023 Programación 0

Estoy agregando metadatos personalizados en el esquema de los DataFrames en mi aplicación PySpark usando el campo de metadatos de StructField (disponible en https://issues.apache.org/jira/browse/SPARK-3569). Funcionó correctamente cuando escribí archivos parquet directamente en s3. Los metadatos personalizados estaban disponibles cuando se leían estos archivos parquet, como era de esperar. Pero no . . . Read more

org.apache.spark.sql.AnalysisException: Las ventanas no basadas en el tiempo no son compatibles en DataFrames/Datasets de streaming;; a pesar de la ventana basada en el tiempo.

29 May, 2023 Programación 0

Estoy haciendo la ordenación basada en ventanas para el procesamiento estructurado de Spark: val filterWindow: WindowSpec = Window .partitionBy("key") .orderBy($"time") controlDataFrame = controlDataFrame.withColumn("Make Coffee", $"value"). withColumn("datetime", date_trunc("second", current_timestamp())). withColumn("time", current_timestamp()). withColumn("temp_rank", rank().over(filterWindow)) .filter(col("temp_rank") === 1) .drop("temp_rank"). withColumn("digitalTwinId", lit(digitalTwinId)). withWatermark("datetime", "10 seconds") Estoy obteniendo time como current_timestamp() y en el esquema . . . Read more

La interfaz de usuario de EMR muestra que el trabajo todavía está en ejecución, pero Yarn muestra que el trabajo se ha completado y esto sucede de forma intermitente.

29 May, 2023 Programación 0

Después de la finalización de un trabajo de Spark (el trabajo de Spark puede cargar los archivos en S3 con éxito), Yarn muestra que el trabajo está completo en la interfaz de usuario de Yarn, pero EMR muestra que el paso todavía está en ejecución (en la consola de AWS . . . Read more

Problema de Apache Beam con el Spark Runner al utilizar Kafka IO.

28 May, 2023 Programación 0

Estoy intentando probar KafkaIO para el Código de Apache Beam con un Runner de Spark. El código funciona bien con un Runner Directo. Sin embargo, si agrego la siguiente línea de código, arroja un error: Error: ERROR org.apache.spark.executor.Executor: Exception in task 0.0 in stage 2.0 (TID 0) java.lang.StackOverflowError at java.base/java.io.ObjectInputStream$BlockDataInputStream.readByte(ObjectInputStream.java:3307) . . . Read more

¿Existe una manera de acceder a dbutils dentro de RStudio Server construido sobre un clúster de databricks?

28 May, 2023 Programación 0

Necesito acceder a los alcances de secretos definidos en Databricks dentro del Servidor RStudio que se ejecuta en un clúster de databricks. ¿Cómo puedo acceder a la función dbutils.secrets.get desde RStudio Server en Databricks?

1 … 96 97 98 … 105

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK

Añadir metadatos personalizados al esquema de DataFrame utilizando el formato de tabla iceberg.

org.apache.spark.sql.AnalysisException: Las ventanas no basadas en el tiempo no son compatibles en DataFrames/Datasets de streaming;; a pesar de la ventana basada en el tiempo.

La interfaz de usuario de EMR muestra que el trabajo todavía está en ejecución, pero Yarn muestra que el trabajo se ha completado y esto sucede de forma intermitente.

Problema de Apache Beam con el Spark Runner al utilizar Kafka IO.

¿Existe una manera de acceder a dbutils dentro de RStudio Server construido sobre un clúster de databricks?