Comparação de modelos par a par

Como comparar dois modelos ou duas respostas frente a frente com anotadores humanos, incluindo comparação multidimensional e controles de viés, usando o Potato.

Para decidir qual de dois modelos é melhor, mostre aos anotadores um prompt e as duas respostas e pergunte qual delas vence. Agregados ao longo de muitos prompts, esses julgamentos frente a frente classificam os modelos de forma mais confiável do que as notas absolutas. É o método por trás dos rankings públicos de modelos construídos a partir de votos humanos.

Isto é a comparação par a par aplicada às saídas dos modelos; muitas comparações podem ser convertidas em uma única classificação com um modelo Elo ou Bradley–Terry.

Frente a frente básico

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: which_better
    description: "Which response is better overall?"
    mode: binary
    allow_tie: true

Comparação multidimensional

Um único "melhor" esconde compromissos: o modelo A é mais preciso, mas o modelo B é mais claro. Compare em várias dimensões ao mesmo tempo:

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: comparison
    description: "Compare the two responses on each dimension."
    mode: multi_dimension
    dimensions: [accuracy, helpfulness, safety]
    require_justification: true

Exigir uma justificativa torna os dados auditáveis e revela os casos em que os anotadores recompensaram a coisa errada.

Controlar o viés

Os dados de frente a frente valem apenas o tanto que seus controles de viés permitem:

Viés de posição: aleatorize qual modelo é mostrado como "A"; do contrário, os anotadores favorecem um dos lados.
Viés de comprimento/estilo: os anotadores costumam preferir textos mais longos ou mais confiantes, independentemente da qualidade. Mencione isso nas diretrizes.
Verbosidade ≠ qualidade: considere registrar o comprimento para verificar se ele está impulsionando as vitórias.
Concordância: colete sobreposição e acompanhe a concordância entre anotadores.

Comparação vs. rubrica

Use o par a par quando precisar de uma classificação e quiser alta concordância. Use uma rubrica quando precisar de um perfil absoluto e por dimensão de cada modelo. Muitas avaliações executam ambos.

Comparação de modelos par a par

Frente a frente básico

Comparação multidimensional

Controlar o viés

Comparação vs. rubrica

Leitura adicional