¿Simpletransformers no utiliza todos los datos para entrenar y evaluar?
Estoy usando SimpleTransformers en mi tarea de clasificación, tengo 2 columnas en mi Dataframe (sentence, label) de tamaño 3890.
Cuando entreno el modelo, ¿por qué muestra que solo está utilizando 8 muestras de mis datos de entrenamiento? ¿Por qué no son 3890/3890? (ver barra roja 0% en la imagen a continuación)
Además, en la evaluación, muestra un 0% (mi prueba tiene 1945 filas), aunque la longitud de la salida es 1945.
Este es el resto de mi código:
instalar SimpleTransformers
!pip install simpletransformers
comprobar la versión instalada
!pip freeze | grep simpletransformers
from simpletransformers.classification import ClassificationModel
definir hiperparámetros
train_args = {
# “reprocess_input_data”: True,
“overwrite_output_dir”: True,
“fp16”: False,
“num_train_epochs”: 2
}
crear un modelo de clasificación
model = ClassificationModel(
“bert”, “bert-base-cased”,
args=train_args
)
davy.ai
Entrenar el modelo
modelo.entrenar_modelo(train_df)
Es probable que tus datos no se estén dividiendo correctamente. La función ‘train_model’ toma un argumento ‘train_df’, que debería ser un DataFrame de pandas que contiene los datos de entrenamiento. Es posible que los datos no se estén dividiendo correctamente, y que el modelo sólo esté entrenando con 8 ejemplos.
Deberías revisar el DataFrame que estás pasando a la función ‘train_model’ para asegurarte de que esté conteniendo los datos correctos. Además, tendrías que revisar los argumentos de entrenamiento ‘train_args’ que estás pasando al ‘ClassificationModel’ para asegurarte de que los datos están siendo divididos correctamente.