Avaliação de LLM Baseada em Rubrica

Como avaliar saídas de LLM em relação a vários critérios ponderados (estilo MT-Bench) usando o tipo de avaliação por rubrica do Potato.

Uma rubrica decompõe um julgamento vago ("esta é uma boa resposta?") em critérios específicos e pontuados, utilidade, precisão, completude, tom, segurança, cada um avaliado em uma escala. Isso torna a avaliação de LLM repetível e revela por que uma resposta é melhor que outra. Essa é a estrutura por trás de benchmarks como o MT-Bench.

Uma rubrica transforma a qualidade subjetiva em uma grade de critérios definidos e pontos de escala, o que aumenta a concordância e torna os resultados interpretáveis.

Quando usar uma rubrica

A saída é rica o suficiente para que uma única pontuação perca informação.
Você precisa saber qual dimensão está fraca (precisão ou tom), não apenas um veredito geral.
Você quer critérios com os quais as partes interessadas concordem de antemão.

Se você só precisa saber "qual é melhor", uma comparação par a par sai mais barata. As rubricas se destacam quando você precisa de um perfil absoluto e multidimensional.

Configurando no Potato

yaml

annotation_schemes:
  - annotation_type: rubric_eval
    name: answer_quality
    description: "Rate the answer on each criterion."
    scale_points: 5
    criteria:
      - {name: Helpfulness, description: "Does it address the user's actual need?"}
      - {name: Accuracy,    description: "Is it factually correct?"}
      - {name: Completeness, description: "Does it cover the important points?"}
      - {name: Tone,        description: "Is the style appropriate?"}

O Potato renderiza isso como uma grade: os critérios na lateral, os pontos de escala ao longo do topo. Os anotadores pontuam cada célula.

Escrevendo bons critérios

Torne-os independentes. Critérios sobrepostos ("útil" e "proveitoso") acabam sendo pontuados juntos e adicionam ruído.
Ancore a escala. Descreva como são um 1 e um 5 para cada critério, não apenas os extremos no geral.
Mantenha curto. De quatro a seis critérios costuma ser o ponto ideal; rubricas longas cansam os anotadores e reduzem a concordância.

Rubricas e LLM-as-judge

A mesma rubrica que você dá às pessoas pode servir de prompt para um "juiz LLM" para uma pré-pontuação barata, e em seguida ter humanos verificando, exatamente como na pré-anotação por LLM. Mantenha uma amostra pontuada por humanos para conferir o juiz e fique atento aos próprios vieses do juiz (extensão, formatação, autopreferência).

Avaliação de LLM Baseada em Rubrica

Quando usar uma rubrica

Configurando no Potato

Escrevendo bons critérios

Rubricas e LLM-as-judge

Leitura adicional