es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Figuración de etiquetas de texto de AWS GroundTruth: ocultar columnas en los datos y verificar la calidad de las respuestas.

Soy nuevo en SageMaker. Tengo un gran conjunto de datos en formato CSV que me gustaría etiquetar:

Identificación de la oración Oración Etiqueta preacordada
148392 Una oración 0
383294 Otra oración 1

Para cada oración, me gustaría tener a) una clasificación binaria de sí/no como respuesta a una pregunta, y b) en una escala del 1 al 3, la obviedad de la clasificación. Necesito que la identificación de la oración se relacione con otras partes del conjunto de datos, y utilizaré las etiquetas preacordadas para evaluar la precisión.

He identificado los trabajos de etiquetado de SageMaker GroundTruth como una posible forma de hacer esto. ¿Es esta la mejor manera? Al intentar configurarlo, me he encontrado con algunos problemas.

El primer problema es que no puedo encontrar una forma de mostrar únicamente la columna de la oración a los etiquetadores, ocultando la identificación de la oración y las etiquetas preacordadas.

El segundo problema es que hay etiquetado único o etiquetado múltiple, pero me gustaría tener dos conjuntos de etiquetas de selección única:

Seleccionar uno para la clasificación binaria:
1) Sí
2) No

Seleccionar uno para la dificultad de la clasificación:
1) Fácil
2) Medio
3) Difícil

Parece que esto se puede hacer usando HTML personalizado, pero no sé cómo hacerlo: la plantilla que proporciona ni siquiera se muestra correctamente.

Finalmente, al no haber utilizado Mechanical Turk antes, ¿hay formas de asegurarse de que las personas tomen el trabajo en serio y no elijan respuestas al azar? Puedo ver que hay una opción para que x número de personas respondan la misma pregunta, pero ¿hay también una forma de incluir una pregunta obvia para la cual ya tenemos una etiqueta “preacordada” cada cierto número de preguntas y expulsar a las personas que la respondan incorrectamente? También parece haber un máximo de $1.20 por tarea, lo cual parece extraño.

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Sí, SageMaker GroundTruth se puede utilizar para etiquetar su conjunto de datos con etiquetas de clasificación binaria y dificultad de clasificación. Sin embargo, requiere personalización para cumplir con sus requisitos específicos.

    Mostrar solo la columna de oraciones

    Por defecto, GroundTruth muestra todas las columnas del archivo de entrada durante el etiquetado. Puede usar una función lambda en línea para filtrar las columnas no deseadas y mostrar solo la columna ‘sentence’ a los trabajadores. Esto se puede lograr modificando la plantilla ‘TextClassification’ en SageMaker.

    Dos conjuntos de etiquetas de selección única

    GroundTruth admite nativamente la clasificación multiclase y la clasificación con múltiples etiquetas, pero no admite directamente múltiples clasificaciones binarias. Por lo tanto, es necesario personalizar la plantilla HTML.

    Puede modificar los campos integrados de para crear dos conjuntos de etiquetas de selección única, uno para la clasificación binaria y otro para la clasificación de dificultad. Luego, puede utilizar una función lambda para convertir las entradas de los campos al formato de salida deseado.

    Garantizar la calidad de los datos

    GroundTruth proporciona varios mecanismos para garantizar la calidad, como cualificaciones de los trabajadores, controles de plagio y políticas de revisión. También puede utilizar una función lambda en línea para verificar la salida del trabajador con respecto a la columna ‘pre_agreed_label’ y tomar medidas si la salida no coincide con sus expectativas.

    En cuanto al costo máximo por tarea, es una configuración que se puede personalizar. Puede establecer la recompensa máxima por tarea en cualquier valor, pero tenga en cuenta que recompensas más altas atraen a trabajadores de mayor calidad. Sin embargo, también puede atraer a fraudadores, por lo que los trabajadores deben ser verificados en cuanto a su calidad.

Comments are closed.