كيفية تقييم أنظمة RAG باستخدام الوسم البشري
دليل عملي لتقييم التوليد المعزز بالاسترجاع: قيِّم صلة الاسترجاع وأمانة الإجابة بشكل منفصل، وحدِّد الادعاءات غير المدعومة باستخدام وسم المقاطع في Potato.
يمكن لنظام التوليد المعزز بالاسترجاع أن يفشل بطريقتين مختلفتين تمامًا، وتُخفي درجة الجودة الواحدة أيًّا منهما تنظر إليه. فإما أن المُسترجِع جلب المستندات الخاطئة، أو أن المُولِّد حصل على مستندات جيدة لكنه تجاهلها. وإذا اكتفيت بقياس "هل الإجابة جيدة"، فلن تتمكن من التمييز بين هاتين الحالتين، ولن تعرف أي نصف من النظام عليك إصلاحه.
ويكمن الحل في تقييم الاسترجاع والتوليد بشكل منفصل، وفي تحديد المكان الذي تنحرف فيه الإجابة عن مصادرها بالضبط.
الأشياء الثلاثة الجديرة بالوسم
- صلة الاسترجاع. بالنسبة لكل مستند مُسترجَع، هل هو فعلًا ذو صلة بالاستعلام؟
- أمانة الإجابة. هل الإجابة المُولَّدة مؤسَّسة على تلك المستندات، دون أي ادعاءات مُختلَقة؟
- دقة الاستشهاد. هل تعود ادعاءات الإجابة إلى المصادر التي تستشهد بها؟
إن إبقاء هذه الأمور منفصلة يحوّل عبارة "الإجابة خاطئة" الغامضة إلى "تم استرجاع المستند الصحيح لكن النموذج أضاف ادعاءً غير موجود فيه". وهذه مشكلة توليد، وهي تشير إلى إصلاح مختلف عمَّا قد يشير إليه فشل الاسترجاع.
إعداد ذلك في Potato
يمكنك وضع الثلاثة جميعًا على شاشة واحدة. قيِّم كل مستند مُسترجَع على المقياس نفسه باستخدام multirate، وقيِّم الأمانة بمقياس ليكرت، وظلِّل المقاطع الإشكالية في الإجابة.
annotation_schemes:
- annotation_type: multirate
name: retrieval_relevance
description: "Rate the relevance of each retrieved document to the query."
labels: ["Irrelevant", "Somewhat", "Relevant", "Highly relevant"]
- annotation_type: likert
name: faithfulness
description: "Is the answer faithful to the retrieved documents?"
size: 5
min_label: "Many unsupported claims"
max_label: "Fully grounded"
- annotation_type: span
name: problems
description: "Highlight any unsupported or incorrect claim in the answer."
labels: [unsupported_claim, contradicted, hallucination]ومخطط المقاطع هو ما يجعل البيانات قابلة للتنفيذ. فدرجة أمانة بقيمة 2 من 5 تخبرك بأن هناك خطأً ما؛ أما المقطع المظلَّل فيخبرك بأي جملة وبالسبب.
أمور تُفسد تقييم RAG بهدوء
لا يستطيع الواسمون الحكم على الأمانة دون المصادر. أظهِر الاستعلام والمستندات المُسترجَعة والإجابة على الشاشة نفسها. فإذا كانت المستندات مطوية أو في علامة تبويب أخرى، فسيقيِّم الناس الإجابة بناءً على ما إذا كانت تبدو صحيحة، وهو بالضبط نمط الفشل الذي تحاول رصده.
كلمة "ذو صلة" بحاجة إلى تعريف. ذو صلة بالاستعلام، أم مُستخدَم فعلًا في الإجابة؟ هذان حُكمان مختلفان وسينقسم الواسمون بشأنهما ما لم تحسم الأمر مسبقًا.
الأمانة هي الجانب الذاتي. اجمع تداخلًا على عينة وتحقَّق من الاتفاق على تقييمات الأمانة تحديدًا. فإذا كان الاتفاق منخفضًا هناك، أحكِم تعريف "غير المدعوم" قبل أن تثق في الأرقام.
إلى أين تتجه بعد ذلك
يوجد الشرح الكامل، بما في ذلك كيفية تكامل المخططات الثلاثة معًا، في دليل تقييم RAG. ولوسم الأخطاء الواقعية والهلوسات في أي مخرجات نموذج، وليس RAG فقط، انظر اكتشاف الهلوسات باستخدام وسم المقاطع. وإذا كنت تقيِّم الوكلاء بشكل أوسع، فابدأ بـ كيفية تقييم وكلاء الذكاء الاصطناعي.