Avaliação de RAG
Como avaliar retrieval-augmented generation com anotação humana, abrangendo relevância da recuperação, fidelidade da resposta e spans de citação, usando o Potato.
A retrieval-augmented generation (RAG) responde a uma pergunta recuperando primeiro documentos e depois gerando uma resposta a partir deles. Avaliar RAG significa julgar duas coisas separadamente: ela recuperou os documentos certos e a resposta é de fato sustentada por eles? Misturar as duas esconde onde o sistema falha.
Consulte retrieval-augmented generation para contexto.
As três coisas a anotar
- Relevância da recuperação: para cada documento recuperado, ele é relevante para a consulta?
- Fidelidade da resposta: a resposta gerada está fundamentada nos documentos recuperados, sem afirmações sem suporte?
- Precisão das citações: as afirmações da resposta de fato remetem às fontes citadas?
Configurando no Potato
Combine três esquemas em uma só tela: avalie cada documento, avalie a fidelidade e destaque os spans problemáticos na resposta:
annotation_schemes:
- annotation_type: multirate
name: retrieval_relevance
description: "Rate the relevance of each retrieved document to the query."
labels: ["Irrelevant", "Somewhat", "Relevant", "Highly relevant"]
- annotation_type: likert
name: faithfulness
description: "Is the answer faithful to the retrieved documents?"
size: 5
min_label: "Many unsupported claims"
max_label: "Fully grounded"
- annotation_type: span
name: problems
description: "Highlight any unsupported or incorrect claim in the answer."
labels: [unsupported_claim, contradicted, hallucination]O multirate avalia muitos documentos na mesma escala de uma vez; o esquema de span marca exatamente onde a resposta se afasta de suas fontes. Consulte Detecção de alucinações.
Por que separar recuperação de geração
Um sistema RAG pode falhar de duas formas: recuperou um contexto ruim (problema de recuperação) ou ignorou um bom contexto (problema de geração). Pontuá-los separadamente diz qual metade corrigir. Uma pontuação de fidelidade sozinha não consegue.
Considerações de qualidade
- Mostre aos anotadores a consulta, os documentos e a resposta juntos; a fidelidade não pode ser julgada sem as fontes.
- "Relevante" precisa de uma definição: relevante para a consulta, ou de fato usado na resposta? Decida desde o início.
- Acompanhe a concordância na fidelidade; é a mais subjetiva das três.