Quantos anotadores você precisa?
Como definir o número de anotadores e a sobreposição de um projeto de anotação, equilibrando concordância, custo e confiança estatística, com as configurações de sobreposição do Potato.
Não existe um número único e certo, mas a decisão se resume a três alavancas: quantas pessoas rotulam cada item (sobreposição), quão claro é a tarefa e o seu orçamento. Tarefas claras precisam de pouca sobreposição; tarefas subjetivas precisam de mais. Este guia traz regras práticas e as configurações para aplicá-las.
Sobreposição vs. cobertura
Todo orçamento de anotação se divide entre dois objetivos:
- Cobertura: rotular mais itens distintos (cada um uma vez).
- Sobreposição: rotular os mesmos itens várias vezes, o que rende estimativas de concordância e a possibilidade de agregar.
Você não consegue maximizar os dois. Um padrão comum: sobrepor totalmente um subconjunto para medir a concordância e depois anotar o restante uma única vez, quando já confiar na tarefa.
Regras práticas
- Tarefas objetivas (categorias claras, alta concordância): 1 anotador para a maioria dos itens, com sobreposição de 2 a 3× em uma amostra de 5 a 10% para monitorar a qualidade.
- Tarefas moderadamente subjetivas: 3 anotadores por item, resolvidos por voto da maioria ou por MACE.
- Tarefas altamente subjetivas (ofensa, emoção, preferência): 5 ou mais anotadores por item, e considere manter toda a distribuição de rótulos em vez de reduzi-la a um só.
Mais anotadores reduzem a variância do rótulo agregado de um item, com retornos decrescentes: passar de 1 para 3 ajuda muito mais do que passar de 7 para 9.
Definir a sobreposição no Potato
A atribuição de tarefas do Potato controla quantos anotadores veem cada item e como os itens são distribuídos.
automatic_assignment:
on: true
instance_per_annotator: 50 # how many items each person labels
labels_per_instance: 3 # how many annotators label each item (overlap)Não esqueça as verificações de qualidade
Aumentar o número de pessoas não adianta se alguns anotadores forem pouco confiáveis. Combine a sobreposição com padrões de referência e verificações de atenção para poder ponderar ou excluir trabalho de baixa qualidade antes de agregar.