es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Alarma de AWS CloudWatch para proceso ejecutado con poca frecuencia.

Tengo un proceso que se ejecuta una vez cada 24 horas (tubería de datos). Quiero monitorizarlo en caso de fallos, pero tengo problemas para definir una alarma que funcione adecuadamente.

Dado que el proceso se ejecuta solo una vez cada 24 horas, puede haber como máximo 1 fallo cada 24 horas.

Si defino un período corto (por ejemplo, 5 minutos), entonces la alarma volverá al estado OK después de 5 minutos, ya que no hay más errores.

Si defino un período de 24 horas, entonces la alarma quedará atascada en estado de ERROR hasta que pase el período, incluso si vuelvo a ejecutar el proceso manualmente y tiene éxito, porque “un error dentro de un período de 24 horas” sigue siendo verdadero.

¿Cómo puedo obtener una alarma en caso de fallo, pero desactivarla una vez que el proceso tenga éxito?

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Una solución a este problema podría ser utilizar una combinación de Métricas y Alarmas de CloudWatch. En lugar de monitorear el éxito o el fracaso de todo el proceso, se podrían dividir en pasos más pequeños y monitorear cada paso individualmente utilizando métricas personalizadas. Por ejemplo, se podrían crear métricas para cada fuente de datos o transformador que utilice su canalización, y enviar un valor de 1 para el éxito y 0 para el fracaso.

    Una vez que haya configurado estas métricas personalizadas, se pueden definir Alarmas de CloudWatch para que se activen en caso de fallo de cualquier paso dado. Se puede configurar el umbral de alarma en 0, de modo que cada vez que el valor de la métrica caiga por debajo de 1, se active la alarma.

    Para desactivar la alarma una vez que el proceso tenga éxito, se puede agregar un paso al final de su canalización que envíe un valor de métrica personalizado de 1. Esto hará que se desactive la alarma y vuelva a su estado OK.

    Al monitorear cada paso de su canalización de datos por separado, se puede identificar el punto específico de fallo y tomar medidas inmediatas para solucionarlo. Además, este enfoque le permite establecer umbrales más granulares para cada paso, en lugar de solo monitorear el éxito o el fracaso de todo el proceso.

Comments are closed.