¿Cómo se encolan las solicitudes en FastAPI/Gunicorn?

davy.ai

June 1, 2023 at 6:28 pm

Para implementar el requisito de descartar solicitudes que han esperado en la cola durante más de 5 segundos, podemos usar una combinación del soporte asincrónico de FastAPI y la configuración de tiempo de espera del trabajador de Gunicorn.

En primer lugar, podemos establecer un tiempo de espera para los trabajadores de Gunicorn usando la bandera --timeout. Por ejemplo, si queremos que un trabajador tenga tiempo de espera de 5 segundos (para que coincida con el contrato del cliente), podemos establecer --timeout 5.

A continuación, podemos agregar un middleware a nuestra aplicación FastAPI que verifique el tiempo transcurrido desde que se aceptó la solicitud (es decir, ingresó a la cola), y si supera los 5 segundos, cancele la solicitud levantando una excepción. Por ejemplo, podemos usar la biblioteca async_timeout y el RequestResponseEndpoint de fastapi.dependency_utils para lograr esto:

import asyncio
import async_timeout
from fastapi import FastAPI, Request
from fastapi.dependency_utils import RequestResponseEndpoint

app = FastAPI()

# un middleware que cancela solicitudes que han esperado demasiado tiempo en la cola
@app.middleware("http")
async def enforce_timeout(request: Request, call_next: RequestResponseEndpoint) -> Response:
    try:
        async with async_timeout.timeout(5):
            response = await call_next(request)
    except asyncio.TimeoutError:
        raise HTTPException(status_code=408, detail="Tiempo de espera de solicitud agotado")
    return response

Con este middleware, cualquier solicitud que haya estado esperando en la cola durante más de 5 segundos se cancelará con una respuesta de error HTTP 408 Tiempo de espera de solicitud agotado.

Tenga en cuenta que para que esto funcione de manera efectiva, debemos configurar a los trabajadores de Gunicorn para que usen tipos de trabajadores asincrónicos (por ejemplo, uvicorn.workers.UvicornWorker) para que el administrador de contexto asíncrono del middleware pueda funcionar correctamente. Además, debemos ajustar el número máximo de trabajadores concurrentes (es decir, el número de banderas --workers pasadas a Gunicorn) en función del tiempo de procesamiento promedio de la solicitud y la cantidad de núcleos de CPU disponibles en la máquina de alojamiento, para que podamos asegurarnos de que el tamaño de la cola sea manejable y el riesgo de tiempos de espera se minimice.

Answer

davy.ai

June 1, 2023 at 6:28 pm
Para implementar el requisito de descartar solicitudes que han esperado en la cola durante más de 5 segundos, podemos usar una combinación del soporte asincrónico de FastAPI y la configuración de tiempo de espera del trabajador de Gunicorn.

En primer lugar, podemos establecer un tiempo de espera para los trabajadores de Gunicorn usando la bandera --timeout. Por ejemplo, si queremos que un trabajador tenga tiempo de espera de 5 segundos (para que coincida con el contrato del cliente), podemos establecer --timeout 5.

A continuación, podemos agregar un middleware a nuestra aplicación FastAPI que verifique el tiempo transcurrido desde que se aceptó la solicitud (es decir, ingresó a la cola), y si supera los 5 segundos, cancele la solicitud levantando una excepción. Por ejemplo, podemos usar la biblioteca async_timeout y el RequestResponseEndpoint de fastapi.dependency_utils para lograr esto:
```
import asyncio
import async_timeout
from fastapi import FastAPI, Request
from fastapi.dependency_utils import RequestResponseEndpoint

app = FastAPI()

# un middleware que cancela solicitudes que han esperado demasiado tiempo en la cola
@app.middleware("http")
async def enforce_timeout(request: Request, call_next: RequestResponseEndpoint) -> Response:
    try:
        async with async_timeout.timeout(5):
            response = await call_next(request)
    except asyncio.TimeoutError:
        raise HTTPException(status_code=408, detail="Tiempo de espera de solicitud agotado")
    return response
```
Con este middleware, cualquier solicitud que haya estado esperando en la cola durante más de 5 segundos se cancelará con una respuesta de error HTTP 408 Tiempo de espera de solicitud agotado.

Tenga en cuenta que para que esto funcione de manera efectiva, debemos configurar a los trabajadores de Gunicorn para que usen tipos de trabajadores asincrónicos (por ejemplo, uvicorn.workers.UvicornWorker) para que el administrador de contexto asíncrono del middleware pueda funcionar correctamente. Además, debemos ajustar el número máximo de trabajadores concurrentes (es decir, el número de banderas --workers pasadas a Gunicorn) en función del tiempo de procesamiento promedio de la solicitud y la cantidad de núcleos de CPU disponibles en la máquina de alojamiento, para que podamos asegurarnos de que el tamaño de la cola sea manejable y el riesgo de tiempos de espera se minimice.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Cómo se encolan las solicitudes en FastAPI/Gunicorn?

Answer

davy.ai