Concordância entre anotadores, explicada

Um guia prático sobre concordância entre anotadores: acordo percentual, kappa de Cohen e de Fleiss, alfa de Krippendorff, quando usar cada métrica e como o Potato as reporta.

A concordância entre anotadores (IAA) mede com que frequência anotadores independentes atribuem o mesmo rótulo. É a evidência padrão de que uma tarefa de anotação está bem definida e de que os rótulos resultantes são confiáveis. Concordância baixa costuma significar que as diretrizes não estão claras, e não que os anotadores são descuidados.

O tema geral é a confiabilidade entre avaliadores. O Potato calcula a concordância em tempo real no painel de administração; veja Controle de qualidade.

Por que o acordo percentual bruto não basta

A medida mais simples é o acordo percentual: a fração de itens que os anotadores rotularam de forma idêntica. O problema é que parte da concordância acontece por acaso. Se dois anotadores escolhem "positivo" 90% das vezes, eles vão concordar na maior parte do tempo mesmo rotulando aleatoriamente. As medidas corrigidas pelo acaso resolvem isso.

Um coeficiente corrigido pelo acaso tem a forma:

text

        P_observed − P_expected
  κ =  ─────────────────────────
            1 − P_expected

onde P_observed é a concordância real e P_expected é a concordância esperada por acaso. Um valor de 1 indica concordância perfeita; 0 indica o nível do acaso.

As três que você vai realmente usar

Kappa de Cohen: dois anotadores, rótulos categóricos. A escolha clássica para um par.
Kappa de Fleiss: mais de dois anotadores, rótulos categóricos, quando itens diferentes podem ser julgados por avaliadores diferentes.
Alfa de Krippendorff: a opção mais geral. Funciona com qualquer número de anotadores, lida com dados ausentes e admite dados nominais, ordinais, de intervalo e de razão. É o que o Potato reporta por padrão.

Use kappa para pares categóricos simples; recorra ao alfa de Krippendorff quando tiver muitos anotadores, sobreposição incompleta ou rótulos ordenados/contínuos (em que "errar por um" deveria pesar menos do que "errar por quatro").

Como interpretar o número

Não existe um limiar universal, mas um guia aproximado comum para alfa/kappa é:

≥ 0,80: bom o suficiente para confiar nos dados.
0,67–0,80: utilizável para conclusões provisórias; investigue as discordâncias.
< 0,67: revise as diretrizes antes de confiar nos rótulos.

Trate esses valores como um convite a investigar, não como uma barreira de aprovado/reprovado. Olhe sempre quais itens e quais rótulos provocam a discordância.

Como medir no Potato

Faça os anotadores se sobreporem em um subconjunto compartilhado e depois ative o relatório de concordância:

yaml

agreement_metrics:
  enabled: true
  # Krippendorff's alpha is reported in the admin dashboard.

Para tarefas de trechos (span) e estruturadas, meça a concordância no nível que importa para você (correspondência exata do trecho versus sobreposição), porque as métricas em nível de documento escondem as discordâncias nos limites.

Quando a concordância é baixa

Leia os itens em discordância: a diretriz é ambígua ou o item é genuinamente difícil?
Refine as definições e adicione os casos difíceis como exemplos. Veja Redação de diretrizes de anotação.
Faça um novo piloto. Se a concordância continuar baixa em tarefas genuinamente subjetivas, considere registrar a própria discordância em vez de forçar uma única resposta.