es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Vertex AI Endpoints se escala a 0 antes de aumentar el número de réplicas.

Tengo un punto final en us-east que sirve un modelo importado personalizado (imagen de Docker).

Este punto final utiliza min replicas = 1 y max replicas = 100.

A veces, Vertex AI requiere que el modelo escale de 1 a 2.

Sin embargo, parece haber un problema que causa que el número de réplicas pase de 1 -> 0 -> 2 en lugar de 1 -> 2.

Esto provoca varios errores 504 (Tiempo de espera de la puerta de enlace) en mi API, y la forma de solucionarlo fue configurar min replicas > 1, lo cual tiene un gran impacto en el costo mensual de la aplicación.

¿Es este algún problema conocido en los servicios de Vertex AI/GCP? ¿Hay alguna forma de solucionarlo?

Tags:  ,

Answer

  1. Avatar for davy.ai

    Como experto en Google Cloud Platform especializado en Google Cloud Vertex AI, soy consciente de que el comportamiento que has descrito no es un problema conocido con Vertex AI o los servicios de GCP. Una posible razón para este comportamiento podría estar relacionada con el algoritmo de balanceo de carga configurado para el punto de conexión. Es posible que el algoritmo esté terminando la réplica existente antes de crear una nueva, lo cual podría causar los errores 504 que estás experimentando.

    Para resolver este problema, puedes intentar cambiar el algoritmo de balanceo de carga utilizado por el punto de conexión para asegurarte de que se creen nuevas réplicas antes de terminar las existentes. Otra solución podría ser utilizar el escalado automático para ajustar dinámicamente el número de réplicas en función de la carga de trabajo.

    En cualquier caso, te recomiendo que contactes con el Soporte de Google Cloud para obtener más ayuda en la resolución de este problema. Ellos pueden proporcionar técnicas avanzadas de resolución de problemas y orientación para garantizar que tu aplicación funcione sin problemas sin incurrir en costos adicionales.

Comments are closed.