El flujo de anotación estándar es una máquina para producir acuerdo. Escribes pautas, entrenas anotadores, mides el acuerdo entre anotadores, arbitras los casos en los que la gente diverge y entregas una única etiqueta de referencia por ítem. Cada paso está diseñado para exprimir el desacuerdo, bajo el supuesto de que el desacuerdo es error y el error debe minimizarse. Para muchas tareas ese supuesto está bien. Para muchas otras descarta en silencio lo más interesante de los datos.

Cuando los anotadores no coinciden, a veces el desacuerdo es un error que resolver y a veces es variación genuina que conservar. En tareas objetivas con una respuesta realmente correcta, colapsa a una etiqueta de referencia. En tareas subjetivas o perspectivistas, una única etiqueta de referencia borra una distribución real del juicio humano, y te conviene más conservar la etiqueta de cada anotador, almacenar una distribución en lugar de un ganador, y medir el acuerdo sin asumir que menos que perfecto significa defectuoso. Esta entrada trata de distinguir los dos casos y de retener el desacuerdo cuando importa.

El supuesto de la única etiqueta de referencia

La mayoría del aprendizaje automático todavía asume que existe una interpretación correcta para cada ítem, y por eso la anotación tiende por defecto a la agregación: toma tres etiquetas, toma la mayoría, llámala verdad. Plank (2022) llamó a esto el «problema» de la variación humana en las etiquetas, entre comillas, porque el encuadre es el problema. La variación genuina en cómo etiqueta la gente no siempre es ruido en torno a un valor verdadero oculto. A veces no hay un único valor verdadero, y la dispersión de las respuestas es la descripción honesta del ítem.

La literatura de revisión respalda esto en un amplio abanico de tareas. Uma y sus colegas (2021) revisaron el aprendizaje a partir del desacuerdo en PLN y visión por computadora y encontraron desacuerdo humano por todas partes, desde el etiquetado morfosintáctico hasta la inferencia en lenguaje natural, junto con un conjunto creciente de métodos que aprenden del desacuerdo en lugar de promediarlo. El giro perspectivista (Cabitza, Campagner y Basile, 2021) lleva el punto más lejos: agregar por voto mayoritario puede ser activamente engañoso, y una mejor práctica conserva las perspectivas de quienes hicieron el etiquetado.

De dónde viene el desacuerdo

No todo desacuerdo significa lo mismo, y el movimiento útil es preguntar de dónde viene un desacuerdo dado. Tres orígenes cubren la mayor parte.

Las pautas. Dos anotadores leen la misma regla de forma distinta, o la regla no cubre el caso que tienen delante. Este desacuerdo es un defecto, y la solución es aclarar la pauta, no conservar la dispersión. Una ronda piloto existe para atrapar justamente esto.
El anotador. Alguien fue apresurado, leyó mal, o es un trabajador de baja calidad que hace clic sin pensar. Esto es error, y debe detectarse y eliminarse. No es lo mismo que la variación genuina, y confundir ambas cosas es como «conservar el desacuerdo» se convierte en «conservar el ruido».
El ítem. El texto es genuinamente ambiguo, o el juicio depende de verdad de quién lo lea. ¿Es ofensivo este chiste? ¿Es esta reseña positiva o mixta? Aquí las respuestas distintas no son errores. Este es el desacuerdo que vale la pena conservar.

La destreza está en separar el tercer origen de los dos primeros. Los problemas de pautas se arreglan, los errores del anotador se filtran, y lo que queda, la variación genuina a nivel de ítem, es la señal.

Una ayuda para decidir sobre el desacuerdo entre anotadores: rastréalo hasta su origen. La ambigüedad de la pauta se corrige, el error del anotador se filtra, y la variación genuina a nivel de ítem o de perspectiva se conserva como señal en lugar de resolverse en una única etiqueta. Rastrea cada desacuerdo hasta su origen: corrige la pauta, filtra el error, conserva la variación genuina

Tarea objetiva o tarea subjetiva

La regla práctica más limpia es si una persona informada y cuidadosa podría estar segura de la respuesta. Si es así, la tarea es objetiva, una etiqueta de referencia tiene sentido, y el desacuerdo es algo que resolver. Si una fecha es el 3 de abril o el 4 de marzo tiene una respuesta. Si una oración contiene una entidad nombrada tiene una respuesta, la mayoría de las veces.

Si una persona informada y cuidadosa aún podría llegar a algo distinto por razones legítimas, la tarea es subjetiva, y forzar una etiqueta de referencia inventa una certeza que los datos no tienen. El carácter ofensivo, la toxicidad, el humor, la cortesía, la postura, la estética de una imagen: dependen de quién juzga, y la variación entre quienes juzgan suele ser justamente la propiedad que te importa. Ahí es también donde los datos demográficos de los anotadores aparecen en las etiquetas, que es toda la razón para recopilarlos e informarlos.

La mayoría de los proyectos reales no son puramente lo uno o lo otro. Un enfoque práctico mide el acuerdo primero y luego lo lee: un acuerdo alto significa que la tarea se comporta de forma objetiva y puedes agregar; un acuerdo obstinadamente moderado en una tarea subjetiva no es un fallo que arreglar sino una distribución que preservar.

Cómo se ve conservar el desacuerdo

Preservar el desacuerdo es sobre todo una decisión acerca de qué almacenas. En lugar de una etiqueta por ítem, conservas las etiquetas sin agregar: el juicio de cada anotador, vinculado al anotador. A partir de ahí puedes construir una etiqueta blanda, una distribución sobre categorías en lugar de un único ganador, y entrenar o evaluar contra la distribución.

Dos formas de manejar las etiquetas de varios anotadores para un ítem: agregarlas en una única etiqueta de referencia dura, que descarta la dispersión, o conservarlas sin agregar como una distribución que preserva cuánto desacuerdo genuino generó el ítem. Agregar a una etiqueta de referencia y perder la dispersión, o conservar la distribución sin agregar

Esto cambia también la evaluación. Un modelo que predice una distribución puede puntuarse contra la distribución humana en lugar de contra una única etiqueta, así que se le premia por estar incierto en los ítems donde la gente está incierta. En tareas subjetivas ese es un objetivo más honesto que la exactitud contra un voto mayoritario con el que la mitad de los anotadores no estaba de acuerdo.

Nada de esto significa abandonar el acuerdo entre anotadores. Sigues midiendo el acuerdo; simplemente dejas de tratar cualquier número por debajo de 1.0 como un defecto que eliminar. El acuerdo te dice cuán objetiva se está comportando la tarea. Si agregar o no es una decisión aparte que tomas con ese número en la mano.

Hacerlo en Potato

Potato no fuerza el consenso. Cuando varios anotadores etiquetan el mismo ítem, sus etiquetas se almacenan por anotador, así que los datos sin agregar, la materia prima de cualquier enfoque basado en distribuciones, es lo que obtienes por defecto. Tú eliges si agregar más adelante, en lugar de perder la dispersión en el momento de la recopilación.

Para tareas donde el desacuerdo es en realidad sobre grado, el tipo soft_label permite que un solo anotador exprese una distribución directamente, repartiendo puntos entre categorías en vez de elegir una:

yaml

annotation_schemes:
  - annotation_type: soft_label
    name: emotion_mix
    description: Distribute 100 points to reflect how much each emotion applies.
    labels: ["Joy", "Sadness", "Anger", "Fear", "Surprise"]
    total: 100
    show_distribution_chart: true

Para separar la ambigüedad genuina del error del anotador, los dos orígenes que más necesitas distinguir, MACE ayuda. Estima conjuntamente una puntuación de competencia por anotador y una entropía por ítem, de modo que un anotador de baja competencia (el origen del error) y un ítem de alta entropía (el origen de la variación genuina) aparecen como cosas distintas en vez de como un montón indiferenciado de desacuerdo:

yaml

mace:
  enabled: true
  min_annotations_per_item: 3

Un anotador situado cerca de 0.4 de competencia probablemente hace clic sin pensar y se puede filtrar. Un ítem con alta entropía entre anotadores por lo demás fiables está genuinamente en disputa, y ese es el desacuerdo que conservas. Cuando una tarea de verdad necesita una única respuesta, el arbitraje está ahí para los casos objetivos, con la etiqueta predicha por MACE como una señal más para quien arbitra. La idea es que resolver el desacuerdo se convierte en una elección que haces por tarea, no en lo que el flujo hace por defecto por ti.

Adónde ir después

Recopilar datos demográficos de los anotadores de forma responsable, por qué la variación entre quienes juzgan suele ser la señal.
Documentar tu conjunto de datos de anotación, para informar juntas las etiquetas sin agregar y el acuerdo.
El acuerdo entre anotadores explicado, para medir el acuerdo sin asumir que el desacuerdo es un fallo.
Arbitraje y resolución del desacuerdo, para los casos objetivos donde una única etiqueta es la decisión correcta.

Los conjuntos de datos subjetivos muestran lo que te aporta el desacuerdo preservado: las etiquetas de emoción finas y en disputa de GoEmotions y los juicios de normas sociales de Social Chemistry, donde personas razonables discrepan de verdad.