es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Los pods del stack Loki se reinician con estado OOM.

Esta es una salida para mis pods de la pila Loki que se implementa desde el gráfico Helm, y estos pods siguen reiniciándose con el estado OOM.
Aunque el recurso de límite de memoria está configurado en 3Gi, OOM no debería ser el caso. No puedo entender por qué estoy viendo este número de reinicios, tampoco hay nada en los registros. ¿Alguien podría ayudar a descubrir esto?
Mi configuración de ingester para la pila Loki:
ingester:
  chunk_idle_period: 60m
  chunk_block_size: 262144
  max_chunk_age: 2h
  chunk_retain_period: 1m

NAME READY STATUS RESTARTS AGE
loki-stack-fluent-bit- 1/1 Running 178 32h
loki-stack-fluent-bit- 1/1 Running 164 46h
loki-stack-fluent-bit- 1/1 Running 18 8h
loki-stack-fluent-bit- 1/1 Running 35 46h
loki-stack-fluent-bit- 1/1 Running 284 46h
Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Según la información proporcionada, parece que los pods se están reiniciando debido a errores de falta de memoria (OOM) a pesar de que se han establecido límites de memoria de 3Gi. Además, no hay información útil en los registros para entender por qué está sucediendo esto.

    Una posible explicación podría ser que los pods están excediendo su límite de memoria, lo que hace que el OOM killer de Kubernetes los termine. Esto se puede confirmar al observar el consumo de recursos de los pods utilizando herramientas como kubectl top o los paneles de Prometheus/Grafana.

    Otra posible razón podría ser una configuración incorrecta en la configuración del ingester para el stack de Loki, lo que provoca un uso excesivo de memoria. La configuración del ingester proporcionada no parece tener ningún problema obvio, pero podría valer la pena verificar otras configuraciones relacionadas, como el período de retención del almacenamiento y el número de índices utilizados.

    Para investigar y resolver aún más el problema, sería útil recopilar más información, como el tamaño y el número de registros que se están ingestionando, el tamaño del nodo y cualquier cambio reciente que pueda haber afectado el sistema. También podría ser útil consultar con la comunidad de Loki para ver si existen problemas conocidos o mejores prácticas para optimizar el uso de recursos.

Comments are closed.