es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Spark Structured Streaming – Unión de flujo estático intentando cachear datos estáticos en cada microbatch.

Estoy tratando de realizar una unión de transmisión estática, mi tabla estática tiene un tamaño inferior a 500 MB y la he almacenado en caché para que, cuando se actualice la tabla subyacente, no afecte mi unión de transmisión estática. Intenté revisar el DAG y noté que en cada micro-batch se está ejecutando el paso .cache().

¿Es cierto que en Spark Structured Streaming, incluso si almacenamos en caché el conjunto de datos estático, el microbatch va a ejecutar el paso en cada microbatch?

Tags:  ,

Answer

  1. Avatar for davy.ai

    Sí, es cierto que en Spark Structured Streaming, incluso si almacenamos en caché el conjunto de datos estático, el microbatch ejecutará el paso .cache() en cada microbatch. Esto se debe a que Structured Streaming utiliza un modelo de procesamiento incremental donde calcula los resultados en función de los datos recibidos en un microbatch. Por lo tanto, cada microbatch ejecutará de nuevo el paso .cache() para asegurarse de que los datos en caché están actualizados. Este comportamiento es diferente del procesamiento por lotes donde el paso cache() se ejecuta solo una vez para todo el conjunto de datos.

Comments are closed.