Avaliação de LLM Baseada em Rubrica
Como avaliar saídas de LLM em relação a vários critérios ponderados (estilo MT-Bench) usando o tipo de avaliação por rubrica do Potato.
Uma rubrica decompõe um julgamento vago ("esta é uma boa resposta?") em critérios específicos e pontuados, utilidade, precisão, completude, tom, segurança, cada um avaliado em uma escala. Isso torna a avaliação de LLM repetível e revela por que uma resposta é melhor que outra. Essa é a estrutura por trás de benchmarks como o MT-Bench.
Uma rubrica transforma a qualidade subjetiva em uma grade de critérios definidos e pontos de escala, o que aumenta a concordância e torna os resultados interpretáveis.
Quando usar uma rubrica
- A saída é rica o suficiente para que uma única pontuação perca informação.
- Você precisa saber qual dimensão está fraca (precisão ou tom), não apenas um veredito geral.
- Você quer critérios com os quais as partes interessadas concordem de antemão.
Se você só precisa saber "qual é melhor", uma comparação par a par sai mais barata. As rubricas se destacam quando você precisa de um perfil absoluto e multidimensional.
Configurando no Potato
annotation_schemes:
- annotation_type: rubric_eval
name: answer_quality
description: "Rate the answer on each criterion."
scale_points: 5
criteria:
- {name: Helpfulness, description: "Does it address the user's actual need?"}
- {name: Accuracy, description: "Is it factually correct?"}
- {name: Completeness, description: "Does it cover the important points?"}
- {name: Tone, description: "Is the style appropriate?"}O Potato renderiza isso como uma grade: os critérios na lateral, os pontos de escala ao longo do topo. Os anotadores pontuam cada célula.
Escrevendo bons critérios
- Torne-os independentes. Critérios sobrepostos ("útil" e "proveitoso") acabam sendo pontuados juntos e adicionam ruído.
- Ancore a escala. Descreva como são um 1 e um 5 para cada critério, não apenas os extremos no geral.
- Mantenha curto. De quatro a seis critérios costuma ser o ponto ideal; rubricas longas cansam os anotadores e reduzem a concordância.
Rubricas e LLM-as-judge
A mesma rubrica que você dá às pessoas pode servir de prompt para um "juiz LLM" para uma pré-pontuação barata, e em seguida ter humanos verificando, exatamente como na pré-anotação por LLM. Mantenha uma amostra pontuada por humanos para conferir o juiz e fique atento aos próprios vieses do juiz (extensão, formatação, autopreferência).