يمكن لنظام التوليد المعزز بالاسترجاع أن يفشل بطريقتين مختلفتين تمامًا، وتُخفي درجة الجودة الواحدة أيًّا منهما تنظر إليه. فإما أن المُسترجِع جلب المستندات الخاطئة، أو أن المُولِّد حصل على مستندات جيدة لكنه تجاهلها. وإذا اكتفيت بقياس "هل الإجابة جيدة"، فلن تتمكن من التمييز بين هاتين الحالتين، ولن تعرف أي نصف من النظام عليك إصلاحه.

A RAG pipeline with three annotation points: retrieval relevance, answer faithfulness, and citation accuracy Where RAG goes wrong

ويكمن الحل في تقييم الاسترجاع والتوليد بشكل منفصل، وفي تحديد المكان الذي تنحرف فيه الإجابة عن مصادرها بالضبط.

الأشياء الثلاثة الجديرة بالوسم

صلة الاسترجاع. بالنسبة لكل مستند مُسترجَع، هل هو فعلًا ذو صلة بالاستعلام؟
أمانة الإجابة. هل الإجابة المُولَّدة مؤسَّسة على تلك المستندات، دون أي ادعاءات مُختلَقة؟
دقة الاستشهاد. هل تعود ادعاءات الإجابة إلى المصادر التي تستشهد بها؟

إن إبقاء هذه الأمور منفصلة يحوّل عبارة "الإجابة خاطئة" الغامضة إلى "تم استرجاع المستند الصحيح لكن النموذج أضاف ادعاءً غير موجود فيه". وهذه مشكلة توليد، وهي تشير إلى إصلاح مختلف عمَّا قد يشير إليه فشل الاسترجاع.

إعداد ذلك في Potato

يمكنك وضع الثلاثة جميعًا على شاشة واحدة. قيِّم كل مستند مُسترجَع على المقياس نفسه باستخدام multirate، وقيِّم الأمانة بمقياس ليكرت، وظلِّل المقاطع الإشكالية في الإجابة.

yaml

annotation_schemes:
  - annotation_type: multirate
    name: retrieval_relevance
    description: "Rate the relevance of each retrieved document to the query."
    labels: ["Irrelevant", "Somewhat", "Relevant", "Highly relevant"]
 
  - annotation_type: likert
    name: faithfulness
    description: "Is the answer faithful to the retrieved documents?"
    size: 5
    min_label: "Many unsupported claims"
    max_label: "Fully grounded"
 
  - annotation_type: span
    name: problems
    description: "Highlight any unsupported or incorrect claim in the answer."
    labels: [unsupported_claim, contradicted, hallucination]

ومخطط المقاطع هو ما يجعل البيانات قابلة للتنفيذ. فدرجة أمانة بقيمة 2 من 5 تخبرك بأن هناك خطأً ما؛ أما المقطع المظلَّل فيخبرك بأي جملة وبالسبب.

أمور تُفسد تقييم RAG بهدوء

لا يستطيع الواسمون الحكم على الأمانة دون المصادر. أظهِر الاستعلام والمستندات المُسترجَعة والإجابة على الشاشة نفسها. فإذا كانت المستندات مطوية أو في علامة تبويب أخرى، فسيقيِّم الناس الإجابة بناءً على ما إذا كانت تبدو صحيحة، وهو بالضبط نمط الفشل الذي تحاول رصده.

كلمة "ذو صلة" بحاجة إلى تعريف. ذو صلة بالاستعلام، أم مُستخدَم فعلًا في الإجابة؟ هذان حُكمان مختلفان وسينقسم الواسمون بشأنهما ما لم تحسم الأمر مسبقًا.

الأمانة هي الجانب الذاتي. اجمع تداخلًا على عينة وتحقَّق من الاتفاق على تقييمات الأمانة تحديدًا. فإذا كان الاتفاق منخفضًا هناك، أحكِم تعريف "غير المدعوم" قبل أن تثق في الأرقام.

إلى أين تتجه بعد ذلك

يوجد الشرح الكامل، بما في ذلك كيفية تكامل المخططات الثلاثة معًا، في دليل تقييم RAG. ولوسم الأخطاء الواقعية والهلوسات في أي مخرجات نموذج، وليس RAG فقط، انظر اكتشاف الهلوسات باستخدام وسم المقاطع. وإذا كنت تقيِّم الوكلاء بشكل أوسع، فابدأ بـ كيفية تقييم وكلاء الذكاء الاصطناعي.