Skip to content

Avaliação de RAG

Como avaliar retrieval-augmented generation com anotação humana, abrangendo relevância da recuperação, fidelidade da resposta e spans de citação, usando o Potato.

A retrieval-augmented generation (RAG) responde a uma pergunta recuperando primeiro documentos e depois gerando uma resposta a partir deles. Avaliar RAG significa julgar duas coisas separadamente: ela recuperou os documentos certos e a resposta é de fato sustentada por eles? Misturar as duas esconde onde o sistema falha.

Consulte retrieval-augmented generation para contexto.

As três coisas a anotar

  1. Relevância da recuperação: para cada documento recuperado, ele é relevante para a consulta?
  2. Fidelidade da resposta: a resposta gerada está fundamentada nos documentos recuperados, sem afirmações sem suporte?
  3. Precisão das citações: as afirmações da resposta de fato remetem às fontes citadas?

Configurando no Potato

Combine três esquemas em uma só tela: avalie cada documento, avalie a fidelidade e destaque os spans problemáticos na resposta:

yaml
annotation_schemes:
  - annotation_type: multirate
    name: retrieval_relevance
    description: "Rate the relevance of each retrieved document to the query."
    labels: ["Irrelevant", "Somewhat", "Relevant", "Highly relevant"]
 
  - annotation_type: likert
    name: faithfulness
    description: "Is the answer faithful to the retrieved documents?"
    size: 5
    min_label: "Many unsupported claims"
    max_label: "Fully grounded"
 
  - annotation_type: span
    name: problems
    description: "Highlight any unsupported or incorrect claim in the answer."
    labels: [unsupported_claim, contradicted, hallucination]

O multirate avalia muitos documentos na mesma escala de uma vez; o esquema de span marca exatamente onde a resposta se afasta de suas fontes. Consulte Detecção de alucinações.

Por que separar recuperação de geração

Um sistema RAG pode falhar de duas formas: recuperou um contexto ruim (problema de recuperação) ou ignorou um bom contexto (problema de geração). Pontuá-los separadamente diz qual metade corrigir. Uma pontuação de fidelidade sozinha não consegue.

Considerações de qualidade

  • Mostre aos anotadores a consulta, os documentos e a resposta juntos; a fidelidade não pode ser julgada sem as fontes.
  • "Relevante" precisa de uma definição: relevante para a consulta, ou de fato usado na resposta? Decida desde o início.
  • Acompanhe a concordância na fidelidade; é a mais subjetiva das três.

Leitura adicional