Evaluación de RAG

Cómo evaluar la generación aumentada por recuperación con anotación humana: relevancia de la recuperación, faithfulness de la respuesta y tramos de citación, usando Potato.

La generación aumentada por recuperación (RAG) responde a una pregunta recuperando primero documentos y generando después una respuesta a partir de ellos. Evaluar RAG significa juzgar dos cosas por separado: ¿recuperó los documentos correctos y la respuesta está realmente respaldada por ellos? Confundir ambas oculta dónde falla el sistema.

Consulta retrieval-augmented generation para más contexto.

Las tres cosas que hay que anotar

Relevancia de la recuperación: para cada documento recuperado, ¿es relevante para la consulta?
Faithfulness de la respuesta: ¿está la respuesta generada fundamentada en los documentos recuperados, sin afirmaciones sin respaldo?
Exactitud de las citas: ¿las afirmaciones de la respuesta remiten realmente a las fuentes citadas?

Cómo configurarlo en Potato

Combina tres esquemas en una sola pantalla: puntúa cada documento, puntúa la faithfulness y resalta los tramos problemáticos de la respuesta:

yaml

annotation_schemes:
  - annotation_type: multirate
    name: retrieval_relevance
    description: "Rate the relevance of each retrieved document to the query."
    labels: ["Irrelevant", "Somewhat", "Relevant", "Highly relevant"]
 
  - annotation_type: likert
    name: faithfulness
    description: "Is the answer faithful to the retrieved documents?"
    size: 5
    min_label: "Many unsupported claims"
    max_label: "Fully grounded"
 
  - annotation_type: span
    name: problems
    description: "Highlight any unsupported or incorrect claim in the answer."
    labels: [unsupported_claim, contradicted, hallucination]

multirate puntúa muchos documentos en la misma escala de una vez; el esquema de tramos marca exactamente dónde la respuesta se aparta de sus fuentes. Consulta Detección de alucinaciones.

Por qué separar la recuperación de la generación

Un sistema RAG puede fallar de dos maneras: recuperó mal el contexto (un problema de recuperación) o ignoró un buen contexto (un problema de generación). Puntuarlos por separado te dice qué mitad arreglar. Una puntuación de faithfulness por sí sola no puede.

Consideraciones de calidad

Muestra a los anotadores la consulta, los documentos y la respuesta juntos: la faithfulness no se puede juzgar sin las fuentes.
"Relevante" necesita una definición: ¿relevante para la consulta o realmente usado en la respuesta? Decídelo de antemano.
Haz seguimiento de la concordancia en la faithfulness; es la más subjetiva de las tres.

Evaluación de RAG

Las tres cosas que hay que anotar

Cómo configurarlo en Potato

Por qué separar la recuperación de la generación

Consideraciones de calidad

Lecturas adicionales