Tag: SPARK-STREAMING-KAFKA

Cómo prevenir que Spark mantenga datos antiguos que provocan falta de memoria en Spark Structured Streaming

13 Jul, 2023 Programación 0

Estoy utilizando el streaming estructurado en Spark pero estoy teniendo dificultades para entender los datos mantenidos en memoria. Actualmente estoy ejecutando Spark 2.4.7, que dice (Guía de programación de streaming estructurado) La idea clave en el streaming estructurado es tratar un flujo de datos en vivo como una tabla a . . . Read more

Métricas de Spark Structured Streaming: ¿Por qué la tasa de procesamiento puede ser mayor que la tasa de entrada?

17 Jun, 2023 Programación 0

¿Cómo es posible que la tasa de proceso sea mayor que la tasa de entrada? A mi entender, la tasa de proceso es la medida por la cual Spark puede procesar los datos entrantes, es decir, la capacidad de proceso. Si es así, la tasa de proceso debe ser en . . . Read more

¿Existe algún vínculo entre los componentes de Spark y el ecosistema de Spark?

14 Jun, 2023 Programación 0

Leí la visión general del modo de clúster (enlace: https://spark.apache.org/docs/latest/cluster-overview.html) y me preguntaba cómo se pueden mapear los componentes como el Driver, Executor y los nodos de trabajo en los componentes del Ecosistema Spark, como Spark Core, Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX y los administradores de programación/cluster. . . . Read more

¿Hay alguna diferencia entre distinct() y reduceByKey() en Spark?

11 Jun, 2023 Programación 0

Tengo un tipo de RDD como este: RDD[((String),SomeDTO)] Este RDD proviene de un método de unión, y puedo estar seguro de que el valor del elemento de la misma clave debe ser el mismo, así que si quiero obtener elementos distintos de la RDD, ¿cuál es la diferencia entre los . . . Read more

¿Cómo suprimir advertencias en Spark?

31 May, 2023 Programación 0

Se ha detectado una operación incorrecta y se ha lanzado la siguiente advertencia: UnsupportedOperationChecker: Se ha detectado un patrón de posible problema de 'corrección' debido a la marca de agua global. La consulta contiene una operación con estado que puede emitir filas anteriores a la marca de agua actual más . . . Read more

1 … 3 4 5

es.davy.ai

¿Tienes una pregunta?