المقارنة الزوجية بين النماذج

كيف تقارن بين نموذجين أو ردّين وجهًا لوجه بالاستعانة بمُعلّقين بشريين، بما في ذلك المقارنة متعددة الأبعاد وضوابط التحيز، باستخدام Potato.

لتحديد أيُّ النموذجين أفضل، اعرض على المُعلّقين توجيهًا والردّين معًا واسألهم أيُّهما يفوز. وعند جمع هذه الأحكام وجهًا لوجه عبر توجيهات كثيرة، فإنها ترتّب النماذج بموثوقية أعلى من الدرجات المطلقة. وهي الطريقة التي تقوم عليها لوحات تصدّر النماذج العامة المبنية على تصويت البشر.

هذه هي المقارنة الزوجية مطبَّقةً على مخرجات النماذج؛ ويمكن تحويل مقارنات كثيرة إلى ترتيب واحد بنموذج Elo أو Bradley–Terry.

المواجهة الأساسية وجهًا لوجه

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: which_better
    description: "Which response is better overall?"
    mode: binary
    allow_tie: true

المقارنة متعددة الأبعاد

كلمة "أفضل" الواحدة تُخفي المفاضلات: النموذج A أدقّ، لكن النموذج B أوضح. قارِن على عدة أبعاد في آنٍ واحد:

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: comparison
    description: "Compare the two responses on each dimension."
    mode: multi_dimension
    dimensions: [accuracy, helpfulness, safety]
    require_justification: true

اشتراط التبرير يجعل البيانات قابلة للمراجعة ويُظهِر الحالات التي كافأ فيها المُعلّقون الشيء الخطأ.

ضبط التحيز

لا تساوي بيانات المواجهة وجهًا لوجه إلا بقدر ما تساويه ضوابط تحيزها:

تحيز الموضع: عشوِئْ أيَّ نموذج يُعرَض بوصفه "A"؛ وإلا فسيميل المُعلّقون إلى جانب واحد.
تحيز الطول/الأسلوب: كثيرًا ما يفضّل المُعلّقون النص الأطول أو الأكثر ثقةً بصرف النظر عن جودته. صرّح بذلك في الإرشادات.
الإطناب ≠ الجودة: فكّر في تسجيل الطول كي تتحقق مما إذا كان هو الذي يقود الانتصارات.
الاتفاق: اجمع التداخل وتتبّع اتفاق المُعلّقين.

المقارنة مقابل سُلّم التقييم

استخدم المقارنة الزوجية حين تحتاج إلى ترتيب وتريد اتفاقًا عاليًا. واستخدم سُلّم التقييم حين تحتاج إلى صورة مطلقة لكل نموذج موزَّعة على الأبعاد. وكثير من التقييمات تُجري الاثنين معًا.

المقارنة الزوجية بين النماذج

المواجهة الأساسية وجهًا لوجه

المقارنة متعددة الأبعاد

ضبط التحيز

المقارنة مقابل سُلّم التقييم

قراءات إضافية