Skip to content
Guides3 min read

Quantos Anotadores Você Realmente Precisa?

Como definir o número de anotadores e a sobreposição de um projeto de anotação: regras práticas para tarefas objetivas e subjetivas, o equilíbrio entre cobertura e sobreposição, e como configurar isso no Potato.

Potato Team

"Quantos anotadores eu preciso?" é uma das primeiras perguntas de qualquer projeto, e a resposta honesta é que depende de três coisas: o quão clara é a tarefa, quanto você pode gastar e o que pretende fazer com as discordâncias. Não existe número mágico, mas existem bons valores padrão.

Cobertura versus sobreposição

Todo orçamento de anotação se divide entre dois objetivos concorrentes. Cobertura significa rotular mais itens distintos, cada um uma única vez. Sobreposição significa rotular os mesmos itens várias vezes para que você possa medir a concordância e agregar os resultados. Não dá para maximizar os dois ao mesmo tempo.

Um padrão que funciona bem: faça a sobreposição total de um pequeno subconjunto para medir a concordância e confirmar que a tarefa está bem definida, depois use um único anotador para o restante quando já confiar nela. Você obtém um sinal de qualidade sem pagar para rotular tudo três vezes.

Regras práticas

Para tarefas com categorias claras e alta concordância, um anotador dá conta da maioria dos itens, com dois ou três anotadores se sobrepondo em uma amostra de 5 a 10 por cento para monitorar a qualidade.

Para tarefas moderadamente subjetivas, use três anotadores por item e resolva com voto majoritário ou um modelo ponderado por competência.

Para trabalhos genuinamente subjetivos, como julgar ofensa, emoção ou preferência, use cinco ou mais anotadores por item e considere manter a distribuição completa dos rótulos em vez de reduzi-la a uma única resposta. A discordância muitas vezes é sinal real, não ruído.

Mais anotadores reduzem a variância do rótulo agregado de um item, mas com retornos decrescentes. Passar de um anotador para três ajuda muito mais do que passar de sete para nove.

Configurando a sobreposição no Potato

A atribuição automática do Potato controla quantos anotadores veem cada item e como os itens são distribuídos entre as pessoas.

yaml
automatic_assignment:
  on: true
  instance_per_annotator: 50     # items each person labels
  labels_per_instance: 3         # annotators per item (overlap)

O número de pessoas não substitui o controle de qualidade

Adicionar anotadores não ajuda se alguns deles forem pouco confiáveis. Combine a sobreposição com itens de padrão-ouro e verificações de atenção para que você possa ponderar ou descartar trabalho de baixa qualidade antes de agregar. Para o raciocínio completo, consulte o guia Quantos Anotadores Você Precisa? e Concordância Entre Anotadores. Para detalhes de implementação, veja a documentação de origem e a documentação de controle de qualidade.