Comparação de modelos par a par
Como comparar dois modelos ou duas respostas frente a frente com anotadores humanos, incluindo comparação multidimensional e controles de viés, usando o Potato.
Para decidir qual de dois modelos é melhor, mostre aos anotadores um prompt e as duas respostas e pergunte qual delas vence. Agregados ao longo de muitos prompts, esses julgamentos frente a frente classificam os modelos de forma mais confiável do que as notas absolutas. É o método por trás dos rankings públicos de modelos construídos a partir de votos humanos.
Isto é a comparação par a par aplicada às saídas dos modelos; muitas comparações podem ser convertidas em uma única classificação com um modelo Elo ou Bradley–Terry.
Frente a frente básico
annotation_schemes:
- annotation_type: pairwise
name: which_better
description: "Which response is better overall?"
mode: binary
allow_tie: trueComparação multidimensional
Um único "melhor" esconde compromissos: o modelo A é mais preciso, mas o modelo B é mais claro. Compare em várias dimensões ao mesmo tempo:
annotation_schemes:
- annotation_type: pairwise
name: comparison
description: "Compare the two responses on each dimension."
mode: multi_dimension
dimensions: [accuracy, helpfulness, safety]
require_justification: trueExigir uma justificativa torna os dados auditáveis e revela os casos em que os anotadores recompensaram a coisa errada.
Controlar o viés
Os dados de frente a frente valem apenas o tanto que seus controles de viés permitem:
- Viés de posição: aleatorize qual modelo é mostrado como "A"; do contrário, os anotadores favorecem um dos lados.
- Viés de comprimento/estilo: os anotadores costumam preferir textos mais longos ou mais confiantes, independentemente da qualidade. Mencione isso nas diretrizes.
- Verbosidade ≠ qualidade: considere registrar o comprimento para verificar se ele está impulsionando as vitórias.
- Concordância: colete sobreposição e acompanhe a concordância entre anotadores.
Comparação vs. rubrica
Use o par a par quando precisar de uma classificação e quiser alta concordância. Use uma rubrica quando precisar de um perfil absoluto e por dimensão de cada modelo. Muitas avaliações executam ambos.