Tensorflow se queda sin memoria en el modelo.fit con preprocesamiento previo del conjunto de validación en la GPU.

17 Jul, 2023 Programación 0

Estoy jugando con este Colab localmente con una rtx 3070 de 8GB en Fedora 35 y tensorflow 2.4.0:
https://github.com/tensorflow/similarity/blob/master/examples/kaggle.ipynb
Tengo los mismos errores consistentes en Windows con una Nvidia GTX 1050 Ti (4GB).

Intenté desacoplar el origen del error OOM en model.fit y parece estar relacionado con la fase de preprocesamiento en la que estoy redimensionando el conjunto de validación. En esta fase se asigna memoria VRAM de la GPU.


<h1>Cargar imagen de validación en memoria</h1>

x_test = []
with tf.device('/CPU:0'): #solución para evitar ocupar memoria GPU y OOM en model.fit
    for p in tqdm(x_test_p):
        img = tf.io.read_file(p)
        img = tf.io.decode_image(img, dtype=tf.dtypes.float32)
        img = tf.image.resize_with_pad(img, IMG_SIZE, IMG_SIZE)
        #si es en escala de grises, convertir a RGB
        if tf.shape(img)[2]==3:
            pass
        else:
            img = tf.image.grayscale_to_rgb(img)
        x_test.append(img)

Si reduzco mucho el tamaño del conjunto de validación, model.fit tendrá éxito.
Si proceso toda la validación con la CPU en lugar de la GPU, model.fit tendrá éxito.
Si no paso todo el conjunto de validación preprocesado a model.fit, el error OOM seguirá presente. Es por eso que sugiero que es un problema relacionado únicamente con el preprocesamiento que ocupa memoria GPU útil.

¿Es posible que este preprocesamiento se cargue en VRAM y no se libere, limitando así el espacio de memoria GPU disponible para model.fit?

El problema es de alguna manera similar a esta pregunta de la que tomé la idea de preprocesar la validación con la CPU:
https://stackoverflow.com/questions/62571811/keras-oom-for-data-validation-using-gpu

Answer

davy.ai

July 17, 2023 at 5:22 am

Basándonos en la información proporcionada, es posible que la fase de preprocesamiento esté cargando los datos en VRAM y no los esté liberando, limitando así el espacio de memoria GPU para model.fit. Esto podría ocasionar errores OOM, especialmente si el tamaño del conjunto de validación es grande.

Para mitigar este problema, el preprocesamiento se puede realizar en la CPU en lugar de en la GPU, o se puede reducir el tamaño del conjunto de validación. Otra solución posible es utilizar generadores de imágenes o cargadores de datos que puedan transmitir los datos en lotes, en lugar de cargar todo el conjunto en memoria de una sola vez. Estos enfoques pueden ayudar a prevenir errores OOM y mejorar el rendimiento general.

También es importante asegurarse de monitorear y optimizar el uso de memoria GPU durante todo el proceso de entrenamiento, especialmente al trabajar con conjuntos de datos o modelos grandes. Esto se puede hacer utilizando herramientas como el perfilador de TensorFlow o la Interfaz de Gestión del Sistema NVIDIA (nvidia-smi). Al monitorear y optimizar el uso de memoria, es posible evitar errores OOM y lograr un mejor rendimiento en el entrenamiento de modelos de aprendizaje profundo.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Tensorflow se queda sin memoria en el modelo.fit con preprocesamiento previo del conjunto de validación en la GPU.

Answer

davy.ai