Poder estatístico e tamanho de amostra em estudos de anotação

Quantos itens você precisa para que um resultado signifique algo, por que essa é uma pergunta diferente de quantos anotadores por item, e como evitar estudos de anotação e avaliação com pouco poder e conclusões exageradas.

"Quantos anotadores?" e "quantos itens?" são duas perguntas diferentes que são confundidas o tempo todo. A sobreposição entre anotadores controla o quão confiável é o rótulo de cada item; o número de itens controla se uma diferença que você observa é real ou ruído. Um estudo pode ter cinco anotadores por item e ainda assim ser pequeno demais para sustentar sua conclusão. Este guia trata do segundo eixo, o poder estatístico, e de como impedir que um estudo de anotação ou avaliação afirme mais do que seus dados permitem.

Dois orçamentos, não um

Todo projeto de anotação investe esforço ao longo de dois eixos independentes, e ajuda nomeá-los separadamente:

Sobreposição (anotadores por item): compra confiabilidade do rótulo, a certeza de que o rótulo de um item específico está correto. Este é o tema de Quantos anotadores você precisa?.
Tamanho de amostra (número de itens): compra poder estatístico, a capacidade de detectar uma diferença real entre condições, modelos ou grupos.

Os dois competem por um orçamento fixo, mas resolvem problemas diferentes. Dez anotadores rotulando 50 itens dão rótulos muito confiáveis para uma amostra pequena demais para comparar qualquer coisa. Um anotador rotulando 5.000 itens dá rótulos ruidosos, mas em quantidade suficiente para detectar um efeito real. Qual dos dois erros você está prestes a cometer depende de qual pergunta você está de fato fazendo.

O que é poder estatístico

O poder estatístico é a probabilidade de que seu estudo detecte um efeito que realmente existe. Poder baixo significa que, mesmo quando o modelo A é de fato melhor que o modelo B, seu experimento muitas vezes não consegue mostrá-lo e, de forma menos óbvia, que os resultados "significativos" que você de fato obtém têm mais chance de serem acasos com tamanhos de efeito inflados. A convenção é mirar em 80 % de poder, o que exige decidir de antemão a menor diferença que vale a pena detectar e dimensionar o estudo para captá-la.

A constatação incômoda é a frequência com que essa etapa é pulada. Card et al. (2020) fizeram análises de poder em configurações comuns de PLN e descobriram que muitas comparações publicadas têm poder muito baixo: para detectar de forma confiável as pequenas diferenças que os artigos típicos afirmam, sobretudo em avaliação humana, muitas vezes são necessários de centenas a milhares de itens, bem mais do que os estudos de fato usam. A lição prática deles é executar o cálculo de poder antes de coletar os dados, e não reconstruir a significância depois.

Fazer o teste de significância corretamente

Ter itens suficientes é necessário, mas não basta; você também precisa testar corretamente. Dror et al. (2018) é a referência padrão aqui, e seu conselho é concreto:

Ajuste o teste aos dados. As métricas de PLN geralmente não seguem uma distribuição normal, então recorra a opções não paramétricas, testes de bootstrap e de permutação, em vez de supor que um teste t se aplica.
Corrija para comparações múltiplas. Testar muitos modelos, métricas ou subgrupos infla os falsos positivos; ajuste (Bonferroni ou, melhor, Benjamini-Hochberg) quando executar muitos testes.
Relate o tamanho do efeito e um intervalo de confiança, não apenas um valor-p. Com itens suficientes, uma diferença pode ser estatisticamente significativa e praticamente irrelevante. O tamanho do efeito e o intervalo dizem ao leitor se ele deve se importar.

Uma receita viável

Enuncie a menor diferença que importaria (digamos, uma diferença de 2 pontos na taxa de vitória).
Execute uma análise de poder para esse efeito a 80 % de poder para obter um número-alvo de itens.
Decida a sobreposição separadamente, com base em quão subjetivos são os rótulos (veja o guia sobre o número de anotadores).
Após a coleta, use um teste de bootstrap ou de permutação, corrija para o número de comparações e relate os tamanhos de efeito com seus intervalos.

A ordem importa: dimensionar o estudo depois de ver os dados é como resultados com pouco poder acabam disfarçados de descobertas.

Fazendo isso no Potato

O poder é uma decisão de projeto, não uma chave de configuração, mas o trabalho do Potato é lhe dar dados limpos para rodar a análise. Defina a sobreposição para a confiabilidade e a contagem de instâncias para o tamanho de amostra na atribuição de tarefas:

yaml

automatic_assignment:
  on: true
  instance_per_annotator: 400    # sample size: items each annotator sees
  labels_per_instance: 3         # overlap: reliability per item

Os dois controles são independentes de propósito. A exportação mantém o rótulo individual de cada anotador com seu ID e carimbo de data/hora, que é o que lhe permite fazer reamostragem bootstrap, por item e por anotador, quando você calcula a significância offline. Preservar os rótulos por anotador em vez de apenas o agregado é o que torna possível uma análise adequada e atenta ao poder; se colapsar cedo demais para um único rótulo de referência, você perde a variância de que o bootstrap precisa.

Leituras adicionais

Quantos anotadores você precisa?, o lado da confiabilidade do orçamento.
Concordância entre anotadores explicada, para medir a confiabilidade depois que você tem sobreposição.
Avaliação humana de texto gerado, onde comparações com pouco poder são especialmente comuns.
Exportando anotações para ML, para extrair os rótulos por anotador e testá-los.