Skip to content

Padrões-ouro e checagens de atenção

Como usar itens padrão-ouro e checagens de atenção para flagrar anotadores de baixa qualidade e manter o projeto calibrado, com a configuração do Potato.

Padrões-ouro e checagens de atenção são itens cuja resposta correta você já conhece. Misturá-los ao fluxo permite medir a acurácia de cada anotador e flagrar quem está com pressa, confuso ou tentando burlar a tarefa. Eles são a primeira linha de defesa do controle de qualidade da anotação, sobretudo em crowdsourcing.

Padrões-ouro

Um item padrão-ouro tem uma resposta verificada por especialistas. Espalhe-os e compare a resposta de cada anotador com a resposta conhecida para obter uma pontuação de acurácia por pessoa. Os itens-ouro podem ser silenciosos (usados só para pontuar) ou dar feedback imediato (usados para treinamento).

yaml
gold_standards:
  enabled: true
  items_file: "gold_standards.json"
  mode: mixed       # silent scoring + occasional feedback
  frequency: 20     # roughly one gold item per 20

Monte seu conjunto-ouro a partir dos casos sem ambiguidade que suas diretrizes resolveram. Não use itens genuinamente ambíguos como ouro, pois você puniria bons anotadores por escolhas razoáveis.

Checagens de atenção

Uma checagem de atenção é um item com resposta óbvia, embutida na instrução ("Selecione 'Discordo' para este item"). Ela pega anotadores que não estão lendo. O Potato também pode flagrar tempos suspeitos, respostas enviadas mais rápido do que um humano conseguiria ler.

yaml
attention_checks:
  enabled: true
  items_file: "attention_checks.json"
  frequency: 10

Aproveitando o sinal

  • Defina um limiar de acurácia para aprovação. Anotadores abaixo dele podem ser retreinados ou excluídos.
  • Combine com uma fase de treinamento. Exija uma pontuação de aprovação nos itens-ouro antes de começar o trabalho real.
  • Não exagere nas checagens. Checagens demais irritam bons anotadores e inflam o custo. Uma taxa pequena e constante já basta.

Para estimar a competência dos anotadores e inferir rótulos a partir da discordância de forma estatística, veja Arbitragem e discordância e o suporte ao MACE no Potato.

Leitura complementar