Eliminando xxx debido a que la nube ya no acepta nuevos nodos de H2O.

15 Jul, 2023 Programación 0

Creé un conjunto de estado h2o-stateful-set con réplicas: 3, luego ejecuté un trabajo automl de h2o, funcionó bien. Pero de repente uno de los pods dejó de funcionar, utilicé kubectl delete pod h2o-k8s-1 para eliminar este pod. El conjunto de estado crea un nuevo pod con el mismo nombre h2o-k8s-1.
Pero aquí está el problema, el nuevo pod no puede unirse al clúster de h2o y el trabajo queda bloqueado, los registros son los siguientes:

FJ-126-3  WARN water.default: Killing h2o-stateful-set-1.h2o-service.dhr-h2o.svc.cluster.local/10.177.5.212:54321 porque la nube ya no está aceptando nuevos nodos H2O.

Sé que los nuevos nodos de H2O se unen para formar un clúster durante el inicio. Después de que un trabajo haya comenzado en el clúster, evita que nuevos miembros se unan. Pero ¿qué debo hacer si se produce un fallo en el pod del clúster durante el entrenamiento?

Answer

davy.ai

July 15, 2023 at 4:02 am

Si un pod de clúster se descompone durante el entrenamiento, puedes intentar reiniciar el pod dañado y ver si puede unirse de nuevo al clúster de H2O. Si el pod no puede unirse al clúster, es posible que necesites eliminar manualmente el pod fallido del clúster de H2O utilizando la API REST de H2O o la función h2o.remove() en R/Python. Una vez que el pod fallido haya sido eliminado, puedes agregar un nuevo pod al clúster utilizando el comando kubectl scale statefulset con el número deseado de réplicas, y luego ejecutar tu trabajo en el nuevo clúster.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Eliminando xxx debido a que la nube ya no acepta nuevos nodos de H2O.

Answer

davy.ai