توافق المُحكِّم ↔ البشر
قِس مدى توافق مُحكِّم نموذج اللغة الكبير مع تسمياتك الذهبية البشرية. يُشغّل Potato المُحكِّم على العناصر المُعنونة، ويحسب Cohen's kappa ومصفوفة الالتباس وقائمة الاختلافات، ويتتبّع التوافق أثناء تحسينك لدليل التقييم.
يقيس توافق المُحكِّم مدى اتفاق مُحكِّم نموذج اللغة الكبير مع تسمياتك الذهبية البشرية ويضبطه. يُشغّل Potato مُحكِّمًا قابلًا للتهيئة بأسلوب LLM-as-a-judge على العناصر التي سبق أن عنونها المُعنونون لديك، ويحسب Cohen's κ ومصفوفة الالتباس وقائمة الاختلافات، ويتتبّع κ أثناء تعديلك لدليل تقييم المُحكِّم. وعند تفعيل الوضع المضمَّن، يظهر حُكم المُحكِّم بجوار التسمية البشرية أثناء التعنين، مصحوبًا بقيمة κ محدَّثة لحظيًا.
هذه هي حلقة «مواءمة المُحكِّم مع نحو 100–200 تسمية ذهبية» القياسية المستخدَمة في أدوات مثل LangSmith Align Evals وEvidently: اجمع التسميات البشرية، وشغِّل المُحكِّم، وافحص الاختلافات، وحسِّن دليل التقييم، ثم أعد التشغيل حتى يصبح التوافق مرتفعًا.
حُكم مُحكِّم نموذج اللغة الكبير يظهر بجوار التعنين البشري مع قيمة kappa محدَّثة لحظيًا
الإعداد
# The judge uses Potato's standard AI endpoint machinery.
ai_support:
enabled: true
endpoint_type: "ollama" # ollama (local) | openai | anthropic | vllm | ...
ai_config:
model: "llama3.2"
temperature: 0.0
# openai/anthropic: add api_key: "<key>"
judge_alignment:
enabled: true
schemas:
correctness: # per annotation-scheme rubric (editable)
rubric: >
Label 'correct' only if the agent's answer is factually right and fully
satisfies the request; otherwise 'incorrect'.
few_shot:
enabled: false # seed the judge prompt with gold examples
max_examples: 4 # drawn from high-agreement human labels
min_agreement: 0.8
inline:
enabled: true # show the judge verdict beside the human label
schemas: [correctness]
compute_on_demand: false # call the judge live when no cached verdict existsيقتصر النطاق على مخططات التصنيف أحادية الاختيار (radio، select، likert). إذا ضُبط judge_alignment.schemas، فلن يُحكَم إلا على تلك المخططات؛ وإلا فستُحكَم جميع المخططات التصنيفية.
تشغيل المُحكِّم
شغِّل المُحكِّم من واجهة برمجة تطبيقات المسؤول. تُخزَّن التنبؤات مؤقتًا حسب إصدار المُوجِّه (prompt)، لذا تكون عمليات إعادة التشغيل منخفضة التكلفة:
# Generate or refresh judge verdicts over human-annotated instances
curl -X POST localhost:8000/admin/api/judge-alignment/run \
-H "X-API-Key: <admin-key>" \
-H "Content-Type: application/json" \
-d '{"max_per_schema": 200}'لإجراء المعايرة، مرِّر دليل تقييم مُعدَّلًا. يؤدي ذلك إلى إنشاء إصدار جديد من المُوجِّه، بحيث يمكنك مقارنة κ عبر الجولات:
curl -X POST localhost:8000/admin/api/judge-alignment/run \
-H "X-API-Key: <admin-key>" -H "Content-Type: application/json" \
-d '{"rubrics": {"correctness": "Stricter rubric text..."}}'تقرير التوافق
GET /admin/judge-alignment # JSON
GET /admin/judge-alignment?format=html # rendered page
GET /admin/judge-alignment?prompt_version=v_abc123
أرسِل ترويسة X-API-Key. لكل مخطط، يعرض التقرير ما يلي:
- Cohen's κ مع تفسير Landis–Koch، ومعدل التوافق، وعدد العناصر التي تمت مقارنتها.
- مصفوفة الالتباس (الصفوف هي الذهب البشري، والأعمدة هي المُحكِّم).
- جدول الاختلافات يتضمن العنصر، والتسمية البشرية، وتسمية المُحكِّم، ودرجة الثقة، وتعليل المُحكِّم.
- سجل إصدارات المُوجِّه مع متوسط κ لكل إصدار، بحيث يكون تقدّم المعايرة مرئيًا.
الذهب البشري هو تصويت الأغلبية بين المُعنونين لكل عنصر.
الوضع المضمَّن
مع inline.enabled، تعرض كل صفحة تعنين حُكم المُحكِّم المُخزَّن مؤقتًا للعنصر — تسميته ودرجة ثقته وتعليله القابل للتوسيع — إلى جانب قيمة κ محدَّثة لحظيًا للمهمة. ويؤدي «القبول» (Accept) إلى ملء الاختيار المطابق. تسجِّل كل عملية حفظ بشرية مقارنة بشرية↔مُحكِّم تغذّي التوافق اللحظي. اضبط compute_on_demand: true لاستدعاء المُحكِّم مباشرةً عند عدم وجود حُكم مُخزَّن مؤقتًا؛ وإلا فشغِّل الدفعة مسبقًا، فهو أسرع.
ملاحظات وقيود
- المعايرة يدوية في هذا الإصدار: عدِّل دليل التقييم وأعد التشغيل. أما تحسين المُوجِّه الآلي فهو خارج النطاق.
- يقتصر النطاق على مخططات التصنيف أحادية الاختيار. أما الحكم على المقاطع (span) والنص الحر فهو من الأعمال المستقبلية.
- شغِّل المُحكِّم على مجموعة ذهبية مركَّزة تضم نحو 100–200 عنصر مُعنون للحصول على κ مستقرة.
ذات صلة
- معايرة مُحكِّم نموذج اللغة الكبير — معايرة متعددة المُحكِّمين وعمياء على البشر مع خطأ المعايرة
- طابور الفرز — وجِّه أكثر العناصر إفادةً إلى البشر أولًا
- دليل التوافق بين المُعنونين — مقاييس kappa بالتفصيل
للاطلاع على تفاصيل التنفيذ، راجع وثائق المصدر.