es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK

Añadir metadatos personalizados al esquema de DataFrame utilizando el formato de tabla iceberg.

Estoy agregando metadatos personalizados en el esquema de los DataFrames en mi aplicación PySpark usando el campo de metadatos de StructField (disponible en https://issues.apache.org/jira/browse/SPARK-3569). Funcionó correctamente cuando escribí archivos parquet directamente en s3. Los metadatos personalizados estaban disponibles cuando se leían estos archivos parquet, como era de esperar. Pero no . . . Read more

org.apache.spark.sql.AnalysisException: Las ventanas no basadas en el tiempo no son compatibles en DataFrames/Datasets de streaming;; a pesar de la ventana basada en el tiempo.

Estoy haciendo la ordenación basada en ventanas para el procesamiento estructurado de Spark: val filterWindow: WindowSpec = Window .partitionBy("key") .orderBy($"time") controlDataFrame = controlDataFrame.withColumn("Make Coffee", $"value"). withColumn("datetime", date_trunc("second", current_timestamp())). withColumn("time", current_timestamp()). withColumn("temp_rank", rank().over(filterWindow)) .filter(col("temp_rank") === 1) .drop("temp_rank"). withColumn("digitalTwinId", lit(digitalTwinId)). withWatermark("datetime", "10 seconds") Estoy obteniendo time como current_timestamp() y en el esquema . . . Read more

Problema de Apache Beam con el Spark Runner al utilizar Kafka IO.

Estoy intentando probar KafkaIO para el Código de Apache Beam con un Runner de Spark. El código funciona bien con un Runner Directo. Sin embargo, si agrego la siguiente línea de código, arroja un error: Error: ERROR org.apache.spark.executor.Executor: Exception in task 0.0 in stage 2.0 (TID 0) java.lang.StackOverflowError at java.base/java.io.ObjectInputStream$BlockDataInputStream.readByte(ObjectInputStream.java:3307) . . . Read more