Skip to content

Avaliação por Rubrica

Crie grades de avaliação por múltiplos critérios no Potato para avaliar saídas de LLM, corrigir redações, medir qualidade de tradução e qualquer tarefa de anotação estruturada baseada em rubrica.

O esquema de anotação de avaliação por rubrica oferece uma interface de grade estruturada para pontuar conteúdo segundo múltiplos critérios em uma escala definida. Esse esquema é ideal para avaliação de saídas de LLM, correção de redações, avaliação de qualidade de tradução e qualquer tarefa que exija pontuação sistemática em múltiplas dimensões.

Visão Geral

O esquema de avaliação por rubrica apresenta:

  • Uma grade de critérios, cada um com sua própria escala de avaliação
  • Rótulos de escala que vão de Ruim a Excelente (personalizáveis)
  • Pontuação geral opcional que resume os critérios
  • Descrições para cada critério, a fim de orientar os anotadores

Isso é especialmente útil para avaliação humana estruturada de saídas de IA generativa.

Início Rápido

yaml
annotation_schemes:
  - annotation_type: rubric_eval
    name: response_quality
    description: Evaluate the quality of this AI-generated response.
    scale_points: 5
    criteria:
      - name: Accuracy
        description: Is the information factually correct?
      - name: Relevance
        description: Does the response address the question?
      - name: Fluency
        description: Is the response well-written and natural?

Opções de Configuração

CampoTipoPadrãoDescrição
annotation_typestringObrigatórioDeve ser "rubric_eval"
namestringObrigatórioIdentificador único para este esquema
descriptionstringObrigatórioInstruções exibidas aos anotadores
scale_pointsinteger5Número de pontos na escala de avaliação
scale_labelsarray["Poor", "Fair", "Average", "Good", "Excellent"]Rótulos para cada ponto da escala (o tamanho deve corresponder a scale_points)
criteriaarrayObrigatórioLista de objetos de critério, cada um com name e description opcional
show_overallbooleanfalseExibe uma linha adicional de pontuação geral abaixo dos critérios

Exemplos

Avaliação de Saída de LLM

yaml
annotation_schemes:
  - annotation_type: rubric_eval
    name: llm_eval
    description: Rate the quality of this model-generated response.
    scale_points: 5
    scale_labels:
      - Poor
      - Fair
      - Average
      - Good
      - Excellent
    show_overall: true
    criteria:
      - name: Helpfulness
        description: Does the response provide useful and actionable information?
      - name: Accuracy
        description: Is the response factually correct and free of hallucinations?
      - name: Harmlessness
        description: Is the response free of harmful, biased, or inappropriate content?
      - name: Coherence
        description: Is the response logically structured and easy to follow?

Correção de Redação

yaml
annotation_schemes:
  - annotation_type: rubric_eval
    name: essay_grade
    description: Grade this student essay using the rubric below.
    scale_points: 4
    scale_labels:
      - Below Expectations
      - Approaching
      - Meets Expectations
      - Exceeds Expectations
    criteria:
      - name: Thesis
        description: Is there a clear and arguable thesis statement?
      - name: Evidence
        description: Does the essay use relevant evidence to support claims?
      - name: Organization
        description: Is the essay logically organized with clear transitions?
      - name: Grammar
        description: Is the writing free of grammatical and spelling errors?

Avaliação de Qualidade de Tradução

yaml
annotation_schemes:
  - annotation_type: rubric_eval
    name: translation_quality
    description: Evaluate the quality of this machine translation.
    scale_points: 3
    scale_labels:
      - Unacceptable
      - Acceptable
      - Perfect
    criteria:
      - name: Adequacy
        description: Does the translation convey the same meaning as the source?
      - name: Fluency
        description: Does the translation read naturally in the target language?
      - name: Terminology
        description: Are domain-specific terms translated correctly?

Formato de Saída

json
{
  "response_quality": {
    "labels": {
      "Accuracy": 4,
      "Relevance": 5,
      "Fluency": 3
    },
    "overall": 4
  }
}

Cada critério é mapeado para o valor de escala selecionado (indexado a partir de 1). O campo overall é incluído somente quando show_overall é true.

Boas Práticas

  1. Mantenha os critérios independentes - cada critério deve medir uma dimensão distinta para evitar pontuação redundante
  2. Escreva descrições claras - os anotadores devem saber exatamente o que cada critério mede, sem ambiguidade
  3. Use de 3 a 5 pontos de escala - menos pontos reduzem a carga cognitiva; mais de 7 pontos raramente melhoram a confiabilidade
  4. Forneça exemplos de referência - na descrição, mencione o que caracteriza cada extremidade da escala
  5. Ative a pontuação geral para agregação - show_overall é útil quando você precisa de uma única métrica de resumo ao lado de detalhamentos detalhados

Leitura Complementar

Para detalhes de implementação, consulte a documentação de origem.