Escalas de avaliação e design Likert

Como projetar escalas de avaliação para anotação, Likert vs. sliders, quantos pontos usar, como evitar o viés de aquiescência e como construir tarefas de avaliação no Potato.

Uma escala de avaliação captura grau, o quão positivo, o quão fluente, o quão útil, em vez de uma categoria. As duas formas comuns são a escala Likert discreta (por exemplo, 1–5) e o slider contínuo. Pequenas escolhas de design em uma escala alteram seus dados mais do que as pessoas imaginam.

Likert: pontos discretos

Use uma escala Likert quando você quiser avaliações comparáveis e fáceis de agregar:

yaml

annotation_schemes:
  - annotation_type: likert
    name: fluency
    description: "How fluent is this translation?"
    size: 5
    min_label: "Not fluent at all"
    max_label: "Perfectly fluent"

Decisões de design que fazem diferença:

Quantos pontos? Cinco é um padrão seguro. Sete oferece mais resolução se os anotadores conseguirem usá-la. Um número par elimina o ponto médio neutro e força uma inclinação para um dos lados, útil quando "neutro" é uma saída fácil, arriscado quando a neutralidade é real.
Rotule as extremidades e, idealmente, cada ponto. Pontos rotulados são interpretados de forma mais consistente do que números soltos.
Mantenha a direção consistente em todas as suas escalas para que os anotadores não as invertam por hábito.

Sliders: valores contínuos

Use um slider quando a quantidade subjacente é realmente contínua, como uma porcentagem de confiança ou a intensidade de uma emoção:

yaml

annotation_schemes:
  - annotation_type: slider
    name: confidence
    description: "How confident are you in your label?"
    min: 0
    max: 100
    step: 1
    min_label: "Guessing"
    max_label: "Certain"

Escalas contínuas dão resolução, mas reduzem a concordância, porque as pessoas não compartilham uma noção precisa de "67 vs. 72". Agrupe a saída em faixas se você precisar de concordância.

Vieses a considerar no design

Viés de aquiescência: a tendência a concordar. Misture itens com redação invertida para que concordar não seja o padrão. Veja viés de aquiescência.
Tendência central: a aglomeração no meio. Rótulos claros nas extremidades e, quando apropriado, um número par de pontos atuam contra ela.
Ancoragem: os primeiros itens definem uma referência. Um pequeno conjunto de calibração no início ajuda.

Além de uma única escala

Avalie muitos itens na mesma escala de uma só vez com multirate (por exemplo, cada documento recuperado). Veja Avaliação de RAG.
Pontue vários critérios ponderados com rubric_eval. Veja Avaliação de LLM baseada em rubrica.
Avaliações de qualidade de áudio como o MOS usam o mesmo mecanismo Likert, veja Anotação de áudio.

Leitura adicional

Como escolher um esquema de anotação
Comparação pareada e escala best–worst, quando comparações superam avaliações
Concordância entre anotadores