Estandarización de datos mediante ImageDataGenerator

davy.ai

July 11, 2023 at 1:05 pm

Para crear x_train con todos los datos de la carpeta ‘train’, puedes utilizar la clase ImageDataGenerator del módulo tf.keras.preprocessing.image. Esta clase genera lotes de datos aumentados a partir de archivos de imágenes en un directorio. Puedes crear una instancia de esta clase y llamar a su método flow_from_directory para generar datos aumentados a partir de tus imágenes y almacenarlos en un arreglo de numpy. Aquí tienes un ejemplo:

from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
    # definir la estandarización por característica
    featurewise_center=True,
    featurewise_std_normalization=True
)

# generar lotes de datos aumentados desde la carpeta de entrenamiento
train_generator = datagen.flow_from_directory(
    directory='train',
    target_size=(img_height, img_width), # especificar el tamaño de la imagen (alto y ancho)
    color_mode="rgb",
    batch_size=batch_size,
    class_mode="categorical", # especificar el modo de clase para un problema de múltiples clases
    shuffle=True, # mezclar los datos en cada época
)

# ajustar el generador de datos con los datos de entrenamiento para calcular la desviación estándar y la media de cada canal
datagen.fit(train_generator)

# crear un arreglo de numpy a partir de los datos aumentados
x_train, y_train = train_generator.next()

Por defecto, el ImageDataGenerator calcula las estadísticas (media y desviación estándar) de los datos de entrada de forma global, es decir, para todas las clases combinadas. Sin embargo, puedes calcular las estadísticas por separado para cada clase especificando el parámetro per_channel en el argumento featurewise_std_normalization. Aquí tienes un ejemplo:

# definir la estandarización por característica, con estadísticas calculadas por separado para cada canal
datagen = ImageDataGenerator(
    featurewise_center=True,
    featurewise_std_normalization=True,
    per_channel=True # calcular la desviación estándar para cada canal por separado
)

# generar lotes de datos aumentados desde la carpeta de entrenamiento
train_generator = datagen.flow_from_directory(
    directory='train',
    ...
)

# ajustar el generador de datos con los datos de entrenamiento para calcular la desviación estándar y la media de cada canal
datagen.fit(train_generator)

# crear un arreglo de numpy a partir de los datos aumentados
x_train, y_train = train_generator.next()

En este caso, las estadísticas se calculan por separado para cada canal (R, G, B) de cada clase.

es.davy.ai

¿Tienes una pregunta?

Estandarización de datos mediante ImageDataGenerator

Answer

davy.ai