Escalas de avaliação e design Likert
Como projetar escalas de avaliação para anotação, Likert vs. sliders, quantos pontos usar, como evitar o viés de aquiescência e como construir tarefas de avaliação no Potato.
Uma escala de avaliação captura grau, o quão positivo, o quão fluente, o quão útil, em vez de uma categoria. As duas formas comuns são a escala Likert discreta (por exemplo, 1–5) e o slider contínuo. Pequenas escolhas de design em uma escala alteram seus dados mais do que as pessoas imaginam.
Likert: pontos discretos
Use uma escala Likert quando você quiser avaliações comparáveis e fáceis de agregar:
annotation_schemes:
- annotation_type: likert
name: fluency
description: "How fluent is this translation?"
size: 5
min_label: "Not fluent at all"
max_label: "Perfectly fluent"Decisões de design que fazem diferença:
- Quantos pontos? Cinco é um padrão seguro. Sete oferece mais resolução se os anotadores conseguirem usá-la. Um número par elimina o ponto médio neutro e força uma inclinação para um dos lados, útil quando "neutro" é uma saída fácil, arriscado quando a neutralidade é real.
- Rotule as extremidades e, idealmente, cada ponto. Pontos rotulados são interpretados de forma mais consistente do que números soltos.
- Mantenha a direção consistente em todas as suas escalas para que os anotadores não as invertam por hábito.
Sliders: valores contínuos
Use um slider quando a quantidade subjacente é realmente contínua, como uma porcentagem de confiança ou a intensidade de uma emoção:
annotation_schemes:
- annotation_type: slider
name: confidence
description: "How confident are you in your label?"
min: 0
max: 100
step: 1
min_label: "Guessing"
max_label: "Certain"Escalas contínuas dão resolução, mas reduzem a concordância, porque as pessoas não compartilham uma noção precisa de "67 vs. 72". Agrupe a saída em faixas se você precisar de concordância.
Vieses a considerar no design
- Viés de aquiescência: a tendência a concordar. Misture itens com redação invertida para que concordar não seja o padrão. Veja viés de aquiescência.
- Tendência central: a aglomeração no meio. Rótulos claros nas extremidades e, quando apropriado, um número par de pontos atuam contra ela.
- Ancoragem: os primeiros itens definem uma referência. Um pequeno conjunto de calibração no início ajuda.
Além de uma única escala
- Avalie muitos itens na mesma escala de uma só vez com
multirate(por exemplo, cada documento recuperado). Veja Avaliação de RAG. - Pontue vários critérios ponderados com
rubric_eval. Veja Avaliação de LLM baseada em rubrica. - Avaliações de qualidade de áudio como o MOS usam o mesmo mecanismo Likert, veja Anotação de áudio.
Leitura adicional
- Como escolher um esquema de anotação
- Comparação pareada e escala best–worst, quando comparações superam avaliações
- Concordância entre anotadores