Agregar rótulos da multidão: além do voto majoritário

Como combinar muitas anotações ruidosas em um único rótulo usando modelos de anotadores como Dawid-Skene e MACE, quando confiar neles e como o Potato estima a competência e infere rótulos.

Quando várias pessoas rotulam o mesmo item, o voto majoritário é a maneira óbvia de combinar suas respostas e, geralmente, a errada. Modelos que estimam a confiabilidade de cada anotador recuperam rótulos melhores, sinalizam spammers e dizem quanta confiança você deve ter. Mas todos eles supõem uma única resposta correta, então em tarefas subjetivas você precisa decidir primeiro se a discordância é um erro a remover ou um sinal a manter. Este guia aborda os principais modelos de agregação, a suposição que compartilham e como executar um no Potato.

O problema que o voto majoritário finge não existir

Colete três rótulos para um item e tome a maioria. Funciona quando os anotadores são mais ou menos iguais e acertam na maioria das vezes. Desmorona no momento em que deixam de ser. O voto majoritário conta um especialista cuidadoso e um bot que clica ao acaso como um voto cada, descarta a divisão dos votos (uma vitória de 2 a 1 e uma varredura de 3 a 0 dão o mesmo resultado) e não lhe dá maneira de distinguir um item genuinamente difícil de um anotador preguiçoso. Este é o problema da inferência da verdade: recuperar o rótulo verdadeiro latente e a confiabilidade de cada anotador ao mesmo tempo, a partir de nada além da matriz de rótulos.

Modelos de matriz de confusão: Dawid and Skene

O método fundador tem quase 50 anos. Dawid and Skene (1979) modelaram cada anotador com uma matriz de confusão, as probabilidades de que rotulem um item verdadeiro-positivo como positivo, negativo e assim por diante, e usaram a maximização da esperança para estimar conjuntamente essas matrizes e os rótulos verdadeiros. Um anotador que confunde duas categorias obtém uma matriz de confusão que diz isso, e seu voto nessa distinção é ponderado para baixo de acordo. Quase todos os modelos modernos de agregação são descendentes dessa ideia.

MACE: competência e detecção de spam

Hovy et al. (2013) introduziram o MACE (Multi-Annotator Competence Estimation), que adiciona um modelo explícito de spam: cada anotador é tratado como alguém que sabe a resposta ou que adivinha, e o MACE estima a probabilidade de que estivesse adivinhando em cada item. Isso lhe dá uma única pontuação de competência por anotador entre 0 e 1, além de uma entropia por item que sinaliza itens genuinamente ambíguos. É rápido, é bom em pegar quem clica aleatoriamente e é o modelo que o Potato traz.

Modelos bayesianos e a evidência dos levantamentos

O campo cresceu muito além desses dois. Paun et al. (2018) compararam uma família de modelos bayesianos de anotação em conjuntos de dados reais e descobriram que eles superam consistentemente o voto majoritário, especialmente quando os anotadores variam muito em qualidade, ao mesmo tempo em que fornecem incerteza calibrada que você pode propagar adiante. No lado da engenharia, Zheng et al. (2017) avaliaram 17 métodos de inferência da verdade e perguntaram se o problema estava resolvido. A resposta curta: nenhum método vence em todos os lugares, mas quase todos superam o voto majoritário, e a diferença cresce à medida que a qualidade dos rótulos cai.

A suposição que todos eles compartilham

Todos os modelos acima supõem que existe um único rótulo verdadeiro e que a discordância é um erro. Para tarefas objetivas, tudo bem. Para as subjetivas, é exatamente o contrário: em ofensividade, emoção ou juízo moral, dois anotadores podem discordar porque genuinamente leem o texto de forma diferente, e Plank (2022) argumenta que essa variação humana nos rótulos é muitas vezes sinal, não ruído. Se você a elimina por agregação, jogou fora justamente aquilo que tornava os dados interessantes. (Aprofundamos isso em Discordância é sinal, não ruído.)

É aqui que saber quem anotou começa a importar. NUTMEG (Ivey, Gauch, and Jurgens, 2025) é um modelo bayesiano construído exatamente para essa tensão: usa informações de contexto do anotador para separar a discordância legítima e sistemática do ruído, removendo rótulos descuidados dos dados de treinamento enquanto preserva a discordância que acompanha quem é o anotador. Isso só funciona se você coletou o contexto desde o início. Se você conduz uma pesquisa demográfica pré-estudo (veja coletar dados demográficos dos anotadores de forma responsável e os instrumentos de pesquisa do Potato), você tem os metadados do anotador de que um modelo no estilo NUTMEG precisa; sem eles, você fica preso a tratar cada discordância como sendo todo erro ou todo sinal.

Fazendo isso no Potato

O Potato executa o MACE sobre seus dados de múltiplos anotadores e reporta a competência e os rótulos inferidos no painel de administração. Funciona em esquemas categóricos (radio, likert, select, multiselect) e precisa de sobreposição real, vários anotadores por item, para ter algo a estimar.

yaml

mace:
  enabled: true
  trigger_every_n: 10            # re-estimate after every 10 new annotations
  min_annotations_per_item: 3    # ignore items with fewer than 3 labels
  min_items: 5                   # wait for at least 5 eligible items

Depois de executar, cada anotador recebe uma pontuação de competência (perto de 1.0 é confiável, abaixo de 0.5 é provavelmente um spammer) e cada item recebe um rótulo previsto mais um valor de entropia. Entropia baixa significa que o modelo está confiante; entropia perto de seu máximo significa que não há consenso, o que geralmente sinaliza um item genuinamente difícil ou mal especificado em vez de um anotador ruim. Todas as opções estão na referência do recurso MACE.

Duas notas práticas. Primeira, agregue sobre a sobreposição que você realmente coletou; o MACE precisa de vários rótulos por item, então planeje a sobreposição antes do estudo, não depois. Segunda, o MACE lhe dá um único rótulo; se sua tarefa é subjetiva, considere manter a distribuição em vez disso com um esquema soft_label, e recorra à adjudicação apenas onde você realmente precisa de uma única resposta.

Quando agregar e quando manter a dispersão

Uma regra de decisão aproximada:

Tarefa objetiva, existe um gabarito de respostas real → agregue para um único rótulo. Use o MACE ou o voto majoritário e siga em frente.
Quase objetiva, mas alguns anotadores não são confiáveis → agregue com um modelo de competência (MACE), não com o voto majoritário simples, para que avaliadores ruins não influenciem o resultado.
Tarefa subjetiva, a discordância é significativa → mantenha a distribuição completa (soft_label) e, se você tiver metadados do anotador, modele a discordância em vez de apagá-la.

Leitura complementar

Estimativa de competência com MACE, a referência do recurso com endpoints da API e interpretação.
Adjudicação e discordância, para resolver os casos que você decide colapsar.
Concordância entre anotadores explicada, para medir o quanto seus anotadores divergem antes de agregar.
De quantos anotadores você precisa?, para a sobreposição que torna a agregação possível.