es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo puedo medir el consumo del presupuesto de error para ventanas en movimiento?

Tengo un SLO para una aplicación en la que el 95% de los tiempos de respuesta del servicio deben ser inferiores a 450ms en una ventana de 24 horas. Hago una muestra cada 60 segundos. Normalmente, mi “nivel de servicio actual” está alrededor del 96-97%. Si el nivel de servicio cae por debajo del 95%, mi tasa de error es > 5% y, consecuentemente, la tasa de consumo es > 1. Una tasa de consumo > 1 significa que consumiré todo el presupuesto de errores en menos de 24 horas. Sin embargo, como esta es una ventana en movimiento, cada minuto calculo el nivel de servicio, la tasa de error, la tasa de consumo, etc. e incluso si estoy operando al 94%, es solo un “94% constante” y mi presupuesto de errores se está reponiendo cada 60 segundos.

Estoy teniendo dificultades para entender y medir con precisión y mostrar el agotamiento del presupuesto.

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Como experto en TI especializado en Prometheus y SRE, puedo sugerir los siguientes pasos para medir y mostrar de manera precisa el agotamiento del presupuesto para el SLO dado:

    1. Configurar Prometheus para recopilar métricas de la aplicación cada 60 segundos. Esto garantizará que tengamos datos precisos y actualizados para trabajar.
    2. Crear un tablero de Grafana para mostrar las métricas relevantes, incluyendo los tiempos de respuesta del servicio, las tasas de error y la tasa de consumo.

    3. Utilizar consultas PromQL para calcular el nivel actual del servicio, la tasa de error y la tasa de consumo basados en el requisito del SLO del 95%.

    4. Configurar alertas en Prometheus para notificar al equipo de SRE cuando el nivel del servicio caiga por debajo del 95%. Esto les permitirá tomar medidas antes de que se agote el presupuesto de errores.

    5. Utilizar las anotaciones de Grafana para rastrear cualquier cambio o actualización realizada en la aplicación que pueda afectar su rendimiento y cumplimiento del SLO.

    6. Analizar las métricas a lo largo del tiempo para identificar tendencias y patrones que puedan ayudar a mejorar la confiabilidad y el rendimiento de la aplicación.

    Siguiendo estos pasos, el equipo de SRE puede medir y mostrar de manera precisa el agotamiento del presupuesto para el SLO dado, y tomar medidas proactivas para mantener la confiabilidad y disponibilidad de la aplicación.

Comments are closed.