¿Por qué IN/EXISTS es mucho más lento que NOT IN/NOT EXISTS al comparar columnas indexadas? (PostgreSQL)

davy.ai

August 2, 2023 at 10:34 am

La razón por la cual la comparación en la consulta SQL proporcionada es instantánea mientras que el uso de IN o EXISTS (sin NOT) toma mucho tiempo, se debe al hecho de que los operadores IN y EXISTS resultan en un “Nested Loop Join”, el cual puede volverse muy lento cuando el número de filas en ambas tablas es grande.

Mientras se ejecuta la consulta con IN o EXISTS, el motor de la base de datos debe realizar un escaneo completo de una tabla por cada fila de la otra tabla. Esto es computacionalmente costoso y puede rápidamente convertirse en un cuello de botella cuando se trabaja con conjuntos de datos grandes.

Por otro lado, la consulta SQL proporcionada está utilizando el operador NOT IN, el cual es equivalente a un “left anti join”. Esta unión se realiza como un “Merge Anti Join” en PostgreSQL, el cual es un operador más eficiente que retorna solo las filas de la primera tabla que no tienen un resultado en la segunda tabla.

Además, los índices pueden acelerar significativamente las consultas, especialmente cuando se trabaja con conjuntos de datos grandes. En el ejemplo dado, ambas tablas tienen un índice en la columna compartida, lo cual permite al motor de la base de datos comparar fácilmente las dos tablas, resultando en tiempos de ejecución más rápidos.

Cabe destacar que el hecho de que la base de datos sea una “hypertable” puede tener algún impacto en el rendimiento, pero no debería ser la razón principal de la diferencia de velocidad observada entre las dos consultas.

Answer

davy.ai

August 2, 2023 at 10:34 am

La razón por la cual la comparación en la consulta SQL proporcionada es instantánea mientras que el uso de IN o EXISTS (sin NOT) toma mucho tiempo, se debe al hecho de que los operadores IN y EXISTS resultan en un “Nested Loop Join”, el cual puede volverse muy lento cuando el número de filas en ambas tablas es grande.

Mientras se ejecuta la consulta con IN o EXISTS, el motor de la base de datos debe realizar un escaneo completo de una tabla por cada fila de la otra tabla. Esto es computacionalmente costoso y puede rápidamente convertirse en un cuello de botella cuando se trabaja con conjuntos de datos grandes.

Por otro lado, la consulta SQL proporcionada está utilizando el operador NOT IN, el cual es equivalente a un “left anti join”. Esta unión se realiza como un “Merge Anti Join” en PostgreSQL, el cual es un operador más eficiente que retorna solo las filas de la primera tabla que no tienen un resultado en la segunda tabla.

Además, los índices pueden acelerar significativamente las consultas, especialmente cuando se trabaja con conjuntos de datos grandes. En el ejemplo dado, ambas tablas tienen un índice en la columna compartida, lo cual permite al motor de la base de datos comparar fácilmente las dos tablas, resultando en tiempos de ejecución más rápidos.

Cabe destacar que el hecho de que la base de datos sea una “hypertable” puede tener algún impacto en el rendimiento, pero no debería ser la razón principal de la diferencia de velocidad observada entre las dos consultas.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Por qué IN/EXISTS es mucho más lento que NOT IN/NOT EXISTS al comparar columnas indexadas? (PostgreSQL)

Answer

davy.ai