Concordância entre anotadores, explicada
Um guia prático sobre concordância entre anotadores: acordo percentual, kappa de Cohen e de Fleiss, alfa de Krippendorff, quando usar cada métrica e como o Potato as reporta.
A concordância entre anotadores (IAA) mede com que frequência anotadores independentes atribuem o mesmo rótulo. É a evidência padrão de que uma tarefa de anotação está bem definida e de que os rótulos resultantes são confiáveis. Concordância baixa costuma significar que as diretrizes não estão claras, e não que os anotadores são descuidados.
O tema geral é a confiabilidade entre avaliadores. O Potato calcula a concordância em tempo real no painel de administração; veja Controle de qualidade.
Por que o acordo percentual bruto não basta
A medida mais simples é o acordo percentual: a fração de itens que os anotadores rotularam de forma idêntica. O problema é que parte da concordância acontece por acaso. Se dois anotadores escolhem "positivo" 90% das vezes, eles vão concordar na maior parte do tempo mesmo rotulando aleatoriamente. As medidas corrigidas pelo acaso resolvem isso.
Um coeficiente corrigido pelo acaso tem a forma:
P_observed − P_expected
κ = ─────────────────────────
1 − P_expected
onde P_observed é a concordância real e P_expected é a concordância esperada por acaso. Um valor de 1 indica concordância perfeita; 0 indica o nível do acaso.
As três que você vai realmente usar
- Kappa de Cohen: dois anotadores, rótulos categóricos. A escolha clássica para um par.
- Kappa de Fleiss: mais de dois anotadores, rótulos categóricos, quando itens diferentes podem ser julgados por avaliadores diferentes.
- Alfa de Krippendorff: a opção mais geral. Funciona com qualquer número de anotadores, lida com dados ausentes e admite dados nominais, ordinais, de intervalo e de razão. É o que o Potato reporta por padrão.
Use kappa para pares categóricos simples; recorra ao alfa de Krippendorff quando tiver muitos anotadores, sobreposição incompleta ou rótulos ordenados/contínuos (em que "errar por um" deveria pesar menos do que "errar por quatro").
Como interpretar o número
Não existe um limiar universal, mas um guia aproximado comum para alfa/kappa é:
- ≥ 0,80: bom o suficiente para confiar nos dados.
- 0,67–0,80: utilizável para conclusões provisórias; investigue as discordâncias.
- < 0,67: revise as diretrizes antes de confiar nos rótulos.
Trate esses valores como um convite a investigar, não como uma barreira de aprovado/reprovado. Olhe sempre quais itens e quais rótulos provocam a discordância.
Como medir no Potato
Faça os anotadores se sobreporem em um subconjunto compartilhado e depois ative o relatório de concordância:
agreement_metrics:
enabled: true
# Krippendorff's alpha is reported in the admin dashboard.Para tarefas de trechos (span) e estruturadas, meça a concordância no nível que importa para você (correspondência exata do trecho versus sobreposição), porque as métricas em nível de documento escondem as discordâncias nos limites.
Quando a concordância é baixa
- Leia os itens em discordância: a diretriz é ambígua ou o item é genuinamente difícil?
- Refine as definições e adicione os casos difíceis como exemplos. Veja Redação de diretrizes de anotação.
- Faça um novo piloto. Se a concordância continuar baixa em tarefas genuinamente subjetivas, considere registrar a própria discordância em vez de forçar uma única resposta.