División de tabla de PyTable
Tengo una tabla PyTable con el siguiente formato:
/neg/data.cols (Cols), 5 columnas
datos (Columna(8909, 256, 256), (‘<f4′, (256, 256)))
nombre de archivo (columna(8909,), |s100)
id (columna(8909,), uint32)
etiqueta (columna(8909,), uint8)
compensación (columna(8909,), float64)
hay 8909 datos dentro de la tabla y etiquetas correspondientes. quiero dividir esta tabla en conjuntos de entrenamiento para el aprendizaje automático. mantengamos el 80% de las filas como datos de entrenamiento y el 20% como datos de prueba.
¿hay alguna función de utilidad que me pueda ayudar a hacer esto? (256,=”” 256)))=”” nombre=”” de=”” archivo=”” (columna(8909,),=”” |s100)=”” id=”” (columna(8909,),=”” uint32)=”” etiqueta=”” (columna(8909,),=”” uint8)=”” compensación=”” (columna(8909,),=”” float64)=”” hay=”” 8909=”” datos=”” dentro=”” de=”” la=”” tabla=”” y=”” etiquetas=”” correspondientes.=”” quiero=”” dividir=”” esta=”” tabla=”” en=”” conjuntos=”” de=”” entrenamiento=”” para=”” el=”” aprendizaje=”” automático.=”” mantengamos=”” el=”” 80%=”” de=”” las=”” filas=”” como=”” datos=”” de=”” entrenamiento=”” y=”” el=”” 20%=”” como=”” datos=”” de=”” prueba.=”” ¿hay=”” alguna=”” función=”” de=”” utilidad=”” que=”” me=”” pueda=”” ayudar=”” a=”” hacer=””></f4’, (256, 256)))
nombre de archivo (columna(8909,), |s100)
id (columna(8909,), uint32)
etiqueta (columna(8909,), uint8)
compensación (columna(8909,), float64)
hay 8909 datos dentro de la tabla y etiquetas correspondientes. quiero dividir esta tabla en conjuntos de entrenamiento para el aprendizaje automático. mantengamos el 80% de las filas como datos de entrenamiento y el 20% como datos de prueba.
¿hay alguna función de utilidad que me pueda ayudar a hacer esto?>
davy.ai
Sí, existen varias funciones de utilidad que pueden ayudarte a dividir la tabla en datos de entrenamiento y test. Una de estas funciones es la función
train_test_split
del módulosklearn.model_selection
. Esta función toma los datos y etiquetas como parámetros y devuelve los datos de entrenamiento y test como dos conjuntos separados. También puedes especificar el tamaño del conjunto de test como parámetro. Por ejemplo, si quieres mantener el 80% de los datos como datos de entrenamiento y el 20% como datos de test, puedes utilizar el siguiente código:from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data, label, test_size=0.2)
Esto dividirá los datos en un 80% de datos de entrenamiento y un 20% de datos de test.