Si obtengo datos de intervalo de 15 minutos para predecir un objetivo por hora, ¿debo utilizar los datos de 15 minutos o agregarlos para obtener datos de 1 hora para el entrenamiento?
Tengo los siguientes conjuntos de datos y los datos están en intervalos de 15 minutos:
Tiempo A B A+B
2021-01-01 00:00 10 20 30
2021-01-01 00:15 20 30 50
2021-01-01 00:30 30 40 70
2021-01-01 01:00 40 50 90
2021-01-01 01:00 10 20 30
2021-01-01 01:15 20 30 50
2021-01-01 01:30 30 40 70
2021-01-01 02:00 40 50 90
Básicamente, necesito desarrollar un modelo de aprendizaje automático para predecir el A+B por hora.
Tiempo A+B
2021-01-02 00:00
2021-01-02 01:00
2021-01-02 02:00
2021-01-02 03:00
Me gustaría preguntar cuándo selecciono la etiqueta objetivo para mi modelo de entrenamiento:
1. ¿Debería utilizar datos de 15 minutos para el entrenamiento y luego añadir el resultado para el A+B por hora, o debo agregar los datos de 15 minutos en datos por hora para el entrenamiento? ¿Cuál es la diferencia?
- ¿Hay alguna diferencia si intento entrenar A y B por separado y luego los sumo en comparación con entrenar directamente el A+B?
Gracias.
davy.ai
Cuando se selecciona la etiqueta objetivo para el modelo de entrenamiento, generalmente se recomienda agregar los datos de 15 minutos en datos por hora para el entrenamiento. Esto se debe a que el uso de datos de 15 minutos podría llevar a un sobreajuste y a un modelo menos generalizable. Agregar los datos en intervalos de una hora también ayudará a reducir el ruido en los datos y hacer que el proceso de entrenamiento sea más eficiente.
Puede haber algunas diferencias entre entrenar A y B por separado y sumarlos, en comparación con entrenar A+B directamente. Sin embargo, esto dependerá en gran medida de las características y patrones específicos de los datos. Si A y B están estrechamente relacionados y tienden a seguir la misma dirección, entrenarlos por separado puede no proporcionar muchos beneficios. Por otro lado, si hay diferencias significativas en los patrones de A y B a lo largo del tiempo, entrenarlos por separado puede resultar en un mejor rendimiento. Puede valer la pena probar ambos enfoques y comparar los resultados para determinar qué método funciona mejor para su conjunto de datos específico.