Agregar etiquetas de multitud: más allá del voto mayoritario

Cómo combinar muchas anotaciones ruidosas en una sola etiqueta usando modelos de anotadores como Dawid-Skene y MACE, cuándo confiar en ellos y cómo Potato estima la competencia e infiere etiquetas.

Cuando varias personas etiquetan el mismo elemento, el voto mayoritario es la forma obvia de combinar sus respuestas y, por lo general, la equivocada. Los modelos que estiman la fiabilidad de cada anotador recuperan mejores etiquetas, señalan a los spammers y te dicen cuánta confianza debes tener. Pero todos ellos suponen que hay una única respuesta correcta, así que en tareas subjetivas primero tienes que decidir si el desacuerdo es un error que hay que eliminar o una señal que hay que conservar. Esta guía cubre los principales modelos de agregación, el supuesto que comparten y cómo ejecutar uno en Potato.

El problema que el voto mayoritario finge que no existe

Reúne tres etiquetas para un elemento y toma la mayoría. Funciona cuando los anotadores son más o menos iguales y aciertan la mayoría de las veces. Se rompe en cuanto dejan de serlo. El voto mayoritario cuenta a un experto cuidadoso y a un bot que hace clic al azar como un voto cada uno, descarta la división de votos (una victoria de 2 a 1 y una barrida de 3 a 0 dan el mismo resultado) y no te da forma de distinguir un elemento genuinamente difícil de un anotador perezoso. Este es el problema de la inferencia de la verdad: recuperar la etiqueta verdadera latente y la fiabilidad de cada anotador al mismo tiempo, a partir de nada más que la matriz de etiquetas.

Modelos de matriz de confusión: Dawid and Skene

El método fundacional tiene casi 50 años. Dawid and Skene (1979) modelaron a cada anotador con una matriz de confusión, las probabilidades de que etiqueten un elemento verdadero-positivo como positivo, negativo, etc., y usaron la maximización de la esperanza para estimar conjuntamente esas matrices y las etiquetas verdaderas. Un anotador que confunde dos categorías obtiene una matriz de confusión que lo refleja, y su voto en esa distinción se pondera a la baja en consecuencia. Casi todos los modelos modernos de agregación son descendientes de esta idea.

MACE: competencia y detección de spam

Hovy et al. (2013) presentaron MACE (Multi-Annotator Competence Estimation), que añade un modelo explícito de spam: cada anotador se trata como alguien que conoce la respuesta o que adivina, y MACE estima la probabilidad de que estuviera adivinando en cada elemento. Eso te da una única puntuación de competencia por anotador entre 0 y 1, además de una entropía por elemento que señala los elementos genuinamente ambiguos. Es rápido, es bueno para atrapar a quienes hacen clic al azar y es el modelo que trae Potato.

Modelos bayesianos y la evidencia de las revisiones

El campo ha crecido mucho más allá de estos dos. Paun et al. (2018) compararon una familia de modelos bayesianos de anotación en conjuntos de datos reales y encontraron que superan de forma consistente al voto mayoritario, especialmente cuando los anotadores varían mucho en calidad, a la vez que ofrecen una incertidumbre calibrada que puedes propagar aguas abajo. En el lado de la ingeniería, Zheng et al. (2017) evaluaron 17 métodos de inferencia de la verdad y se preguntaron si el problema está resuelto. La respuesta corta: ningún método gana en todas partes, pero casi todos superan al voto mayoritario, y la brecha crece a medida que baja la calidad de las etiquetas.

El supuesto que todos ellos comparten

Todos los modelos anteriores suponen que hay una única etiqueta verdadera y que el desacuerdo es un error. Para tareas objetivas eso está bien. Para las subjetivas es exactamente lo contrario: en cuestiones de ofensividad, emoción o juicio moral, dos anotadores pueden discrepar porque genuinamente leen el texto de forma distinta, y Plank (2022) sostiene que esta variación humana en las etiquetas suele ser señal, no ruido. Si la eliminas mediante agregación, has tirado precisamente aquello que hacía interesantes a los datos. (Profundizamos en esto en El desacuerdo es señal, no ruido.)

Aquí es donde empieza a importar saber quién anotó. NUTMEG (Ivey, Gauch, and Jurgens, 2025) es un modelo bayesiano construido justamente para esta tensión: usa información de fondo del anotador para separar el desacuerdo legítimo y sistemático del ruido, eliminando las etiquetas descuidadas de los datos de entrenamiento mientras preserva el desacuerdo que refleja quién es el anotador. Eso solo funciona si recopilaste el trasfondo desde el principio. Si ejecutas una encuesta demográfica previa al estudio (ver recopilar datos demográficos de los anotadores de forma responsable y los instrumentos de encuesta de Potato), tienes los metadatos del anotador que necesita un modelo de estilo NUTMEG; sin ellos, te quedas tratando cada desacuerdo como todo error o toda señal.

Cómo hacerlo en Potato

Potato ejecuta MACE sobre tus datos de múltiples anotadores e informa de la competencia y las etiquetas inferidas en el panel de administración. Funciona con esquemas categóricos (radio, likert, select, multiselect) y necesita solapamiento real, varios anotadores por elemento, para tener algo que estimar.

yaml

mace:
  enabled: true
  trigger_every_n: 10            # re-estimate after every 10 new annotations
  min_annotations_per_item: 3    # ignore items with fewer than 3 labels
  min_items: 5                   # wait for at least 5 eligible items

Una vez ejecutado, cada anotador obtiene una puntuación de competencia (cerca de 1.0 es fiable, por debajo de 0.5 es probablemente un spammer) y cada elemento obtiene una etiqueta predicha más un valor de entropía. Una entropía baja significa que el modelo está seguro; una entropía cercana a su máximo significa que no hay consenso, lo que normalmente señala un elemento genuinamente difícil o mal especificado en lugar de un mal anotador. Todas las opciones están en la referencia de la función MACE.

Dos notas prácticas. Primera, agrega sobre el solapamiento que realmente recopilaste; MACE necesita múltiples etiquetas por elemento, así que planifica el solapamiento antes del estudio, no después. Segunda, MACE te da una única etiqueta; si tu tarea es subjetiva, considera conservar la distribución en su lugar con un esquema soft_label, y recurre a la adjudicación solo donde realmente necesites una sola respuesta.

Cuándo agregar y cuándo conservar la dispersión

Una regla de decisión aproximada:

Tarea objetiva, existe una clave de respuestas real → agrega a una sola etiqueta. Usa MACE o el voto mayoritario y sigue adelante.
Casi objetiva, pero algunos anotadores no son fiables → agrega con un modelo de competencia (MACE), no con el voto mayoritario simple, para que los malos evaluadores no inclinen el resultado.
Tarea subjetiva, el desacuerdo es significativo → conserva la distribución completa (soft_label), y si tienes metadatos del anotador, modela el desacuerdo en lugar de eliminarlo.

Lecturas adicionales

Estimación de competencia con MACE, la referencia de la función con endpoints de API e interpretación.
Adjudicación y desacuerdo, para resolver los casos que decidas colapsar.
El acuerdo entre anotadores explicado, para medir cuánto divergen tus anotadores antes de agregar.
¿Cuántos anotadores necesitas?, para el solapamiento que hace posible la agregación.