Skip to content

Avaliação de LLM Baseada em Rubrica

Como avaliar saídas de LLM em relação a vários critérios ponderados (estilo MT-Bench) usando o tipo de avaliação por rubrica do Potato.

Uma rubrica decompõe um julgamento vago ("esta é uma boa resposta?") em critérios específicos e pontuados, utilidade, precisão, completude, tom, segurança, cada um avaliado em uma escala. Isso torna a avaliação de LLM repetível e revela por que uma resposta é melhor que outra. Essa é a estrutura por trás de benchmarks como o MT-Bench.

Uma rubrica transforma a qualidade subjetiva em uma grade de critérios definidos e pontos de escala, o que aumenta a concordância e torna os resultados interpretáveis.

Quando usar uma rubrica

  • A saída é rica o suficiente para que uma única pontuação perca informação.
  • Você precisa saber qual dimensão está fraca (precisão ou tom), não apenas um veredito geral.
  • Você quer critérios com os quais as partes interessadas concordem de antemão.

Se você só precisa saber "qual é melhor", uma comparação par a par sai mais barata. As rubricas se destacam quando você precisa de um perfil absoluto e multidimensional.

Configurando no Potato

yaml
annotation_schemes:
  - annotation_type: rubric_eval
    name: answer_quality
    description: "Rate the answer on each criterion."
    scale_points: 5
    criteria:
      - {name: Helpfulness, description: "Does it address the user's actual need?"}
      - {name: Accuracy,    description: "Is it factually correct?"}
      - {name: Completeness, description: "Does it cover the important points?"}
      - {name: Tone,        description: "Is the style appropriate?"}

O Potato renderiza isso como uma grade: os critérios na lateral, os pontos de escala ao longo do topo. Os anotadores pontuam cada célula.

Escrevendo bons critérios

  • Torne-os independentes. Critérios sobrepostos ("útil" e "proveitoso") acabam sendo pontuados juntos e adicionam ruído.
  • Ancore a escala. Descreva como são um 1 e um 5 para cada critério, não apenas os extremos no geral.
  • Mantenha curto. De quatro a seis critérios costuma ser o ponto ideal; rubricas longas cansam os anotadores e reduzem a concordância.

Rubricas e LLM-as-judge

A mesma rubrica que você dá às pessoas pode servir de prompt para um "juiz LLM" para uma pré-pontuação barata, e em seguida ter humanos verificando, exatamente como na pré-anotação por LLM. Mantenha uma amostra pontuada por humanos para conferir o juiz e fique atento aos próprios vieses do juiz (extensão, formatação, autopreferência).

Leitura adicional