es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Dividir el conjunto de datos de la antorcha sin mezclar.

Estoy utilizando Pytorch para ejecutar un modelo Transformer. Cuando quiero dividir los datos (datos tokenizados), utilizo este código:

train_dataset, test_dataset = torch.utils.data.random_split(
                                        tokenized_datasets,
                                        [train_size, test_size])

torch.utils.data.random_split utiliza el método de mezcla, pero no quiero mezclarlos. Quiero dividirlos de forma secuencial.

¿Alguna sugerencia? Gracias.

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Sí, puedes usar el módulo Subset de Pytorch para dividir tus datos de manera secuencial. Aquí tienes un código de ejemplo:

    from torch.utils.data import Subset
    
    train_dataset = Subset(tokenized_datasets, range(train_size))
    test_dataset = Subset(tokenized_datasets, range(train_size, train_size+test_size))
    

    En el código de arriba, estamos utilizando el módulo Subset para dividir por subconjuntos nuestros tokenized_datasets de manera secuencial, basándonos en los valores proporcionados por range. Básicamente, toma los primeros train_size puntos de datos para el conjunto de entrenamiento y los siguientes test_size puntos de datos para el conjunto de pruebas.

    ¡Espero que esto sea útil!

Comments are closed.