التقييم البشري للنص المُولَّد

كيف تُجري تقييمًا بشريًا قابلًا للدفاع لمخرجات نماذج اللغة الكبيرة وتوليد اللغة الطبيعية: تعريف المعايير بدقة، والاختيار بين التقييمات المطلقة والتقييمات الزوجية، وتوفير القوة الإحصائية للدراسة، والإبلاغ بتفصيل كافٍ لإعادة إنتاجها.

ترتبط المقاييس الآلية مثل BLEU وROUGE ارتباطًا ضعيفًا بمدى جودة النص المُولَّد فعليًا، ولهذا يظل التقييم البشري هو المعيار، ويُجرى بشكل سيّئ أكثر مما يُجرى بشكل جيد. الأمور الثلاثة التي تفصل التقييم البشري الموثوق عن التقييم الشكلي: عرِّف كل معيار بدقة، وفضِّل الأحكام النسبية على الدرجات المطلقة، وأبلغ من التفاصيل ما يكفي لأن يعيد شخص آخر إجراءه. هذا الدليل هو البروتوكول، لا صياغة معايير التقييم.

لماذا التقييم البشري، ولماذا يصعب الوثوق به

في التوليد المفتوح والتلخيص والحوار والترجمة وردود نماذج اللغة الكبيرة، تقارن المقاييس الآلية مع نصوص مرجعية وتفوّت معظم ما يهم: فالإجابة السلسة والأمينة المصاغة بشكل مختلف عن المرجع تحصل على درجة سيئة، والكذبة السلسة تحصل على درجة جيدة. لذا يبقى الحكم البشري هو الحقيقة الأساسية. المشكلة أن التقييم البشري نفسه أداة قياس، وأداة سيئة التصميم تنتج أرقامًا مشوّشة بقدر المقاييس التي حلّت محلها.

حجم المشكلة موثَّق. استعرض Howcroft et al. (2020) عشرين عامًا من تقييمات توليد اللغة الطبيعية ووجدوا أن المجال لم يكن ليتفق حتى على ما تعنيه معاييره الخاصة: فمصطلحات مثل «الطلاقة» و«الكفاية» و«الطبيعية» كانت تُعرَّف بشكل مختلف (أو لا تُعرَّف إطلاقًا) بين ورقة وأخرى، مما جعل النتائج مستحيلة المقارنة. علاجهم هو نقطة الانطلاق لأي تقييم جادّ: حدِّد بدقة ما يعنيه كل معيار قبل جمع حكم واحد.

عرِّف المعايير بدقة

المعايير الغامضة هي حيث تخطئ معظم التقييمات البشرية. عبارة «قيّم الجودة من 1 إلى 5» تدعو كل مُشرِّح إلى ابتكار تعريفه الخاص للجودة. قسِّمها إلى أبعاد مُسمّاة ومُعرَّفة كلٌّ على حدة، واكتب لكل بُعد تعريفًا إجرائيًا من جملة واحدة:

الطلاقة: هل النص صحيح نحويًا وسليم البناء، بصرف النظر عن كونه صحيحًا في مضمونه؟
الاتساق: هل تتتابع الجمل بشكل منطقي ككل؟
الأمانة / الدقة الوقائعية: هل كل ادعاء مدعوم من المصدر (في التلخيص/RAG) أو صحيح (في التوليد المفتوح)؟ هنا تُضبط الهلوسات.
الملاءمة: هل يتناول فعليًا المُوجَّه المطلوب؟
النفع: في المهام الشبيهة بالمساعد، هل يحقق ما أراده المستخدم؟

قياس هذه الأبعاد كلٍّ على حدة يخبرك لماذا يتفوق نظام على آخر، لا مجرد أنه تفوّق.

درجات مطلقة أم مقارنات نسبية

أكبر قرار تصميمي هو ما إذا كان المُشرِّحون يقيّمون مخرجًا واحدًا في كل مرة أم يقارنون عدة مخرجات.

التقييمات المطلقة (ليكرت) بسيطة لكنها تعاني من تحيّز المقياس: يرسو المُشرِّحون عند مراجع مختلفة، ويتجنبون الأطراف، وينحرفون على مدى الجلسة، فالدرجة «4» من مقيّم ليست «4» من آخر.
التفضيل الزوجي (أيهما أفضل، A أم B؟) يتجاوز تحيّز المقياس كليًا وهو عمومًا أكثر موثوقية، ولهذا يقوم عليه بيانات التفضيل لـ RLHF ومقارنة النماذج. والثمن هو أنك تحصل على ترتيب، لا على مستوى مطلق.
القياس الأفضل-الأسوأ يعرض مجموعة صغيرة ويطلب فقط الأفضل والأسوأ، وهو وسيلة رخيصة للحصول على ترتيبات موثوقة من أحكام قليلة.

يعرض van der Lee et al. (2021) إرشادات لأفضل الممارسات تغطي هذه الخيارات بالضبط: كم عدد العناصر والمقيّمين، وأي مقياس، وأي تحليل إحصائي، وتستحق القراءة قبل أن تلتزم بتصميم.

أعطها القوة الإحصائية، وأبلغ عنها

يبقى نمطا فشل حتى بعد أن يصبح التصميم صحيحًا.

أولًا، المقارنات ضعيفة القوة الإحصائية. يتطلب اكتشاف فرق جودة صغير بين نظامين جيدين عناصر أكثر مما يتوقع الناس؛ أجرِ تحليل القوة أولًا، واستخدم اختبار دلالة مناسبًا، وأبلغ عن أحجام الأثر، لا عن أيّ متوسط كان أعلى فقط.

ثانيًا، التفاصيل غير المُبلَّغ عنها. راجع Belz et al. (2021) قابلية إعادة الإنتاج في معالجة اللغة الطبيعية ووجدوا أن التقييمات البشرية يصعب إعادة إنتاجها بوجه خاص، غالبًا لأن الورقة تُغفل المعايير الدقيقة والتعليمات ومجموعة المُشرِّحين والتحليل. سجِّل كل ذلك كجزء من الدراسة، لا كفكرة لاحقة.

بعض الآليات التي تمنع تحيّزات يمكن تفاديها: رتِّب المخرجات عشوائيًا كي لا يتسرّب أثر الموضع (يميل الناس إلى الخيار الأول)، وأخفِ هوية النظام كي لا يستطيع المُشرِّحون معرفة أي نموذج أنتج ماذا، وجرِّب دفعة صغيرة تجريبيًا لقياس الاتفاق وتصحيح المعايير المُربكة قبل التوسّع.

القيام بذلك في Potato

يمتلك Potato مخططًا لكل أسلوب تقييم، فينعكس القرار التصميمي أعلاه مباشرةً على الإعداد. للتقييمات المطلقة لكل معيار:

yaml

annotation_schemes:
  - name: faithfulness
    annotation_type: likert
    description: "Is every claim in the response supported by the source? 1 = many unsupported, 5 = fully supported."
    size: 5
  - name: fluency
    annotation_type: likert
    description: "Is the response grammatical and well-formed?"
    size: 5

لمقارنة A/B عمياء، استخدم مخطط pairwise ورتِّب عشوائيًا أي نظام يُعرض بوصفه A:

yaml

annotation_schemes:
  - name: preference
    annotation_type: pairwise
    description: "Which response is more helpful overall?"
    labels: ["A is better", "Tie", "B is better"]

للتسجيل المنظّم متعدد المعايير في مرور واحد، يجمع مخطط rubric_eval درجةً لكل بُعد من أبعاد معايير التقييم. أيًّا اخترت، أبقِ تداخلًا على مجموعة فرعية مشتركة كي تتمكن من الإبلاغ عن الاتفاق، وأبقِ التسميات لكل مُشرِّح في التصدير كي يتوفر لاختبار الدلالة التباين الذي يحتاجه.

قراءات إضافية

تقييم نماذج اللغة الكبيرة القائم على معايير التقييم، لتحويل الجودة الغامضة إلى أبعاد مُسجَّلة بدرجات.
مقارنة النماذج الزوجية، لتقييم A/B على نطاق واسع.
القوة الإحصائية وحجم العينة، كي تستطيع المقارنة فعلًا دعم ادعائها.
تقييم RAG بالتشريح البشري، لحالة الأمانة/الملاءمة تحديدًا.