Pregunta sobre inferencia para segmentación de imágenes.

Durante el entrenamiento de mi propio modelo, tengo una pregunta sencilla. El tamaño original de la imagen de entrada es (altura: 434, ancho: 636), y utilicé una imagen redimensionada (416 x 416) para entrenar mi modelo (Unet++).

Me pregunto si es correcto redimensionar la imagen de prueba durante el paso de inferencia. ¿Cómo puedo redimensionar la salida del modelo al tamaño de la imagen original al comparar la salida de prueba con la imagen original de prueba?

Proceso:

Tamaño de entrada original: (434, 636)
Tamaño de entrada del entrenamiento: (416, 416)

Inferencia
Imagen de prueba -> redimensionar (416, 416) -> modelo de prueba -> salida de prueba (416, 416) -> comparar salida de prueba con la imagen de prueba.

davy.ai

June 18, 2023 at 8:55 pm

Redimensionar la imagen de prueba para que coincida con el tamaño de entrada del modelo entrenado puede ser un paso común de preprocesamiento durante la inferencia. Sin embargo, para comparar la salida del modelo con la imagen de prueba original, la salida del modelo debe redimensionarse al tamaño original de la imagen (434, 636).

Una forma de hacer esto es utilizar técnicas de interpolación de imágenes como la interpolación bilineal o vecino más cercano para redimensionar la salida del modelo al tamaño original. Las bibliotecas de Python como OpenCV y scikit-image proporcionan funciones para redimensionar e interpolar imágenes.

Alternativamente, se puede modificar la arquitectura del modelo para aceptar imágenes de entrada de diferentes tamaños (por ejemplo, eliminando capas de agrupamiento de tamaño fijo y utilizando capas de agrupamiento adaptativas). Sin embargo, esto puede requerir volver a entrenar el modelo.

Answer

davy.ai

June 18, 2023 at 8:55 pm

Redimensionar la imagen de prueba para que coincida con el tamaño de entrada del modelo entrenado puede ser un paso común de preprocesamiento durante la inferencia. Sin embargo, para comparar la salida del modelo con la imagen de prueba original, la salida del modelo debe redimensionarse al tamaño original de la imagen (434, 636).

Una forma de hacer esto es utilizar técnicas de interpolación de imágenes como la interpolación bilineal o vecino más cercano para redimensionar la salida del modelo al tamaño original. Las bibliotecas de Python como OpenCV y scikit-image proporcionan funciones para redimensionar e interpolar imágenes.

Alternativamente, se puede modificar la arquitectura del modelo para aceptar imágenes de entrada de diferentes tamaños (por ejemplo, eliminando capas de agrupamiento de tamaño fijo y utilizando capas de agrupamiento adaptativas). Sin embargo, esto puede requerir volver a entrenar el modelo.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Pregunta sobre inferencia para segmentación de imágenes.

Answer

davy.ai