Comparação par a par e escala melhor–pior
Quando usar julgamentos comparativos em vez de avaliações, comparação par a par e escala melhor-pior (MaxDiff), e como configurá-las no Potato.
As pessoas têm dificuldade em dar notas absolutas estáveis, mas comparam bem. A anotação comparativa tira proveito disso: em vez de "dê uma nota de 1 a 5", você pergunta "qual é melhor, A ou B?". As duas formas principais são a comparação par a par e a escala melhor–pior. Elas são a espinha dorsal dos dados de preferência da IA moderna.
Veja Pairwise comparison e MaxDiff para mais contexto.
Comparação par a par
Mostre dois itens e pergunte qual vence. É simples, de alta concordância, e é o formato usado para coletar dados de preferência humana para o aprendizado por reforço a partir de feedback humano.
annotation_schemes:
- annotation_type: pairwise
name: preference
description: "Which response better answers the question?"
mode: binary
allow_tie: true
sequential_key_binding: truePermitir empates impede que os anotadores inventem uma diferença onde ela não existe. Para captar o quanto algo é melhor, troque o mode por uma escala (por exemplo, "A muito melhor … B muito melhor"). A vitrine de preferência par a par é um exemplo funcional.
Muitos julgamentos par a par podem ser convertidos em uma única classificação com um modelo como o sistema de pontuação Elo ou o modelo de Bradley–Terry.
Escala melhor–pior (MaxDiff)
Mostre um conjunto pequeno (muitas vezes quatro itens) e peça o melhor e o pior. Cada julgamento é mais informativo do que um único voto par a par, porque fixa as duas pontas do conjunto de uma só vez.
annotation_schemes:
- annotation_type: best_worst_scaling
name: fluency
description: "Pick the most and least fluent translation."
tuple_size: 4
best_label: "Most fluent"
worst_label: "Least fluent"A escala melhor–pior produz pontuações confiáveis e quase de intervalo a partir de escolhas simples, e é muito usada para construir classificações calibradas a partir de muitos anotadores.
Quando preferir comparações a avaliações
- Seu construto é difícil de ancorar de forma absoluta (humor, utilidade, qualidade estética).
- Você precisa de alta concordância e sua escala Likert é ruidosa.
- Você está construindo dados de preferência para treinar ou alinhar um modelo.
O custo é que você obtém informação relativa; pode ser preciso um modelo (Elo, Bradley–Terry) para recuperar pontuações absolutas.
Leitura adicional
- Escalas de avaliação, a alternativa de pontuação absoluta
- Comparação de modelos par a par, comparar saídas de IA
- Dados de preferência para RLHF