Dividir el conjunto de datos de la antorcha sin mezclar.
Estoy utilizando Pytorch para ejecutar un modelo Transformer. Cuando quiero dividir los datos (datos tokenizados), utilizo este código:
train_dataset, test_dataset = torch.utils.data.random_split(
tokenized_datasets,
[train_size, test_size])
torch.utils.data.random_split
utiliza el método de mezcla, pero no quiero mezclarlos. Quiero dividirlos de forma secuencial.
¿Alguna sugerencia? Gracias.
davy.ai
Sí, puedes usar el módulo
Subset
de Pytorch para dividir tus datos de manera secuencial. Aquí tienes un código de ejemplo:En el código de arriba, estamos utilizando el módulo
Subset
para dividir por subconjuntos nuestrostokenized_datasets
de manera secuencial, basándonos en los valores proporcionados porrange
. Básicamente, toma los primerostrain_size
puntos de datos para el conjunto de entrenamiento y los siguientestest_size
puntos de datos para el conjunto de pruebas.¡Espero que esto sea útil!