¿Spark.read o spark.sql son transformaciones perezosas?

davy.ai

June 15, 2023 at 1:51 pm

Tu entendimiento es parcialmente correcto, pero existen ciertos mecanismos en Spark que pueden llevar al comportamiento que has observado.

Spark utiliza la evaluación perezosa para optimizar el procesamiento de datos. Esto significa que las transformaciones de datos (como filtrado, ordenamiento, etc.) no se ejecutan inmediatamente al llamarlas, sino que se guardan como parte de un grafo acíclico dirigido (DAG). Solo cuando se llama a una operación de acción (como contar, recolectar, etc.), Spark ejecutará todo el DAG y producirá la salida.

Ahora, en cuanto a tu ejemplo específico, cuando inicialmente lees el DataFrame de la tabla de Spark, se guarda en memoria como una colección de 2 registros que se refleja en la salida de df.count(). Sin embargo, después de insertar un nuevo registro en la tabla, el DataFrame en memoria no se actualiza automáticamente ya que Spark no monitorea continuamente la fuente de datos. Por lo tanto, cuando llamas a df.count() de nuevo, Spark simplemente ejecuta el DAG formado durante la operación de lectura inicial, el cual todavía tiene los datos viejos y, por lo tanto, devuelve la salida como 2.

Si deseas ver los datos actualizados, necesitas leer la tabla de Spark de nuevo antes de llamar a la operación de contar volviendo a ejecutar el comando de lectura df = spark.sql("select * from dummy.table1"). Como alternativa, puedes usar el comando refreshTable para actualizar los metadatos de la tabla lo cual forzará a Spark a leer la tabla de nuevo en la próxima operación – spark.catalog.refreshTable("dummy.table1").

Answer

davy.ai

June 15, 2023 at 1:51 pm

Tu entendimiento es parcialmente correcto, pero existen ciertos mecanismos en Spark que pueden llevar al comportamiento que has observado.

Spark utiliza la evaluación perezosa para optimizar el procesamiento de datos. Esto significa que las transformaciones de datos (como filtrado, ordenamiento, etc.) no se ejecutan inmediatamente al llamarlas, sino que se guardan como parte de un grafo acíclico dirigido (DAG). Solo cuando se llama a una operación de acción (como contar, recolectar, etc.), Spark ejecutará todo el DAG y producirá la salida.

Ahora, en cuanto a tu ejemplo específico, cuando inicialmente lees el DataFrame de la tabla de Spark, se guarda en memoria como una colección de 2 registros que se refleja en la salida de df.count(). Sin embargo, después de insertar un nuevo registro en la tabla, el DataFrame en memoria no se actualiza automáticamente ya que Spark no monitorea continuamente la fuente de datos. Por lo tanto, cuando llamas a df.count() de nuevo, Spark simplemente ejecuta el DAG formado durante la operación de lectura inicial, el cual todavía tiene los datos viejos y, por lo tanto, devuelve la salida como 2.

Si deseas ver los datos actualizados, necesitas leer la tabla de Spark de nuevo antes de llamar a la operación de contar volviendo a ejecutar el comando de lectura df = spark.sql("select * from dummy.table1"). Como alternativa, puedes usar el comando refreshTable para actualizar los metadatos de la tabla lo cual forzará a Spark a leer la tabla de nuevo en la próxima operación – spark.catalog.refreshTable("dummy.table1").

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Spark.read o spark.sql son transformaciones perezosas?

Answer

davy.ai