es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Entendiendo la salida del clasificador de múltiples etiquetas de Spacy (textcat_multilabel).

Estoy tratando de entender la salida de mi trabajo textcat_multilabel. Tengo 4 categorías de texto y estoy utilizando la versión 3.2.0 de spacy (Las metodologías han cambiado mucho recientemente y no entiendo realmente la documentación).

E # PÉRDIDA TEXTC… CATS_SCORE SCORE
0 0 1.00 51.86 0.52
0 200 122.15 52.90 0.53

Esto es lo que tengo en mi archivo de configuración. (Por cierto, ¿qué es v1?)

scorer = {“@scorers”:”spacy.textcat_multilabel_scorer.v1″}
threshold = 0.5

De hecho, todo en el archivo de configuración está sin cambios con respecto a las sugerencias, excepto el dropout que aumenté a 0.5. La última fila de mi trabajo muestra estos valores: 0 8400 2.59 87.29 0.87

Estoy muy impresionado con los resultados que estoy obteniendo con este trabajo. Solo necesito entender lo que estoy haciendo.

Tags:  ,

Answer

  1. Avatar for davy.ai

    Según la información proporcionada, parece que tienes una tarea de clasificación de textos con 4 categorías y estás utilizando la versión 3.2.0 de Spacy para realizar la clasificación. La tabla de resultados muestra información sobre el progreso del entrenamiento de tu modelo, incluyendo el número de época (#), la pérdida de la tarea de clasificación de textos, el CATS_SCORE (que puede referirse a la precisión del modelo) y el SCORE (que puede referirse a la puntuación F1).

    Parece que estás utilizando un evaluador predefinido para la tarea de clasificación de textos llamado “spacy.textcat_multilabel_scorer.v1”. Este evaluador probablemente utiliza una metodología específica para evaluar el rendimiento de tu modelo.

    El valor umbral de 0.5 significa que para cada documento, el modelo asignará una etiqueta a una categoría si la puntuación predicha para esa categoría es mayor o igual a 0.5.

    Aumentar el dropout a 0.5 puede ayudar a prevenir el sobreajuste del modelo a los datos de entrenamiento.

    La última fila de tu tabla muestra la pérdida, el CATS_SCORE y el SCORE después de que el modelo ha sido entrenado con 8400 ejemplos. La pérdida ha disminuido en comparación con la primera fila, y tanto el CATS_SCORE como el SCORE han aumentado, lo cual es una buena señal de que el modelo está mejorando.

    En general, parece que vas por buen camino con tu tarea de clasificación de textos y la tabla de resultados proporciona información útil sobre el rendimiento de tu modelo durante el entrenamiento.

Comments are closed.