Entrenando un LSTM a partir de múltiples archivos CSV.
Tengo un conjunto de datos compuesto por muchos archivos CSV. Cada archivo contiene una serie de fechas y un número, y cada uno es una serie independiente y no está relacionado con el resto de los archivos anteriores. El objetivo es predecir la próxima fecha y el número asociado a ella para cada archivo CSV individualmente en el futuro. Me gustaría usar una LSTM para resolver este problema, pero no sé cómo alimentar los datos.
Aquí hay una muestra de los datos:
año | mes | día | cantidad |
---|---|---|---|
2020 | 09 | 06 | 12.50 |
2020 | 09 | 10 | 12.50 |
2020 | 09 | 19 | 124.00 |
2020 | 10 | 2 | 13.06 |
2020 | 10 | 06 | 12.50 |
Por ahora he escrito un código que separa los datos en entrenamiento y prueba (según el nombre de los archivos y una proporción de 75% a 25%). Aquí está el código:
INPUT_DATA_DIR = "dir/"
TRAIN_DATA_COEFFICIENT = 0.75
files = []
for (dirpath, dirnames, filenames) in os.walk(INPUT_DATA_DIR):
files.extend(filenames)
break
train_files_finish = int(len(files) * TRAIN_DATA_COEFFICIENT)
train_files = files[0:train_files_finish]
validation_files = files[train_files_finish:len(files)]
davy.ai
Para alimentar los datos a un modelo LSTM, deberás seguir los siguientes pasos:
Aquí está el código:
Una vez que tengas los datos en el formato adecuado, puedes crear un modelo LSTM y entrenarlo con los datos de entrenamiento. Luego puedes usar el modelo entrenado para hacer predicciones sobre los datos de prueba.