Comparação par a par e escala melhor–pior

Quando usar julgamentos comparativos em vez de avaliações, comparação par a par e escala melhor-pior (MaxDiff), e como configurá-las no Potato.

As pessoas têm dificuldade em dar notas absolutas estáveis, mas comparam bem. A anotação comparativa tira proveito disso: em vez de "dê uma nota de 1 a 5", você pergunta "qual é melhor, A ou B?". As duas formas principais são a comparação par a par e a escala melhor–pior. Elas são a espinha dorsal dos dados de preferência da IA moderna.

Veja Pairwise comparison e MaxDiff para mais contexto.

Comparação par a par

Mostre dois itens e pergunte qual vence. É simples, de alta concordância, e é o formato usado para coletar dados de preferência humana para o aprendizado por reforço a partir de feedback humano.

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: preference
    description: "Which response better answers the question?"
    mode: binary
    allow_tie: true
    sequential_key_binding: true

Permitir empates impede que os anotadores inventem uma diferença onde ela não existe. Para captar o quanto algo é melhor, troque o mode por uma escala (por exemplo, "A muito melhor … B muito melhor"). A vitrine de preferência par a par é um exemplo funcional.

Muitos julgamentos par a par podem ser convertidos em uma única classificação com um modelo como o sistema de pontuação Elo ou o modelo de Bradley–Terry.

Escala melhor–pior (MaxDiff)

Mostre um conjunto pequeno (muitas vezes quatro itens) e peça o melhor e o pior. Cada julgamento é mais informativo do que um único voto par a par, porque fixa as duas pontas do conjunto de uma só vez.

yaml

annotation_schemes:
  - annotation_type: best_worst_scaling
    name: fluency
    description: "Pick the most and least fluent translation."
    tuple_size: 4
    best_label: "Most fluent"
    worst_label: "Least fluent"

A escala melhor–pior produz pontuações confiáveis e quase de intervalo a partir de escolhas simples, e é muito usada para construir classificações calibradas a partir de muitos anotadores.

Quando preferir comparações a avaliações

Seu construto é difícil de ancorar de forma absoluta (humor, utilidade, qualidade estética).
Você precisa de alta concordância e sua escala Likert é ruidosa.
Você está construindo dados de preferência para treinar ou alinhar um modelo.

O custo é que você obtém informação relativa; pode ser preciso um modelo (Elo, Bradley–Terry) para recuperar pontuações absolutas.

Leitura adicional

Escalas de avaliação, a alternativa de pontuação absoluta
Comparação de modelos par a par, comparar saídas de IA
Dados de preferência para RLHF