تقدير كفاءة MACE
تقدير كفاءة المعلّقين والتصنيفات الحقيقية باستخدام خوارزمية MACE.
تقدير كفاءة MACE
MACE (تقدير كفاءة المعلّقين المتعددين) هي خوارزمية Variational Bayes EM تقوم بتقدير التصنيفات الحقيقية لكل عنصر ودرجات كفاءة المعلّقين بشكل مشترك. تُنمذج كل معلّق إما كـ "عارف" (يُنتج تصنيفات صحيحة) أو "مخمّن" (يُنتج تصنيفات عشوائية)، مما يعطي درجة كفاءة بين 0.0 و1.0.
متى تستخدم MACE
تكون MACE مفيدة عندما يكون لديك عدة معلّقين يصنّفون نفس العناصر وتريد:
- تحديد المعلّقين الأكثر موثوقية
- إنتاج تصنيفات متوقعة أعلى جودة عبر ترجيح مساهمات المعلّقين
- اكتشاف المعلّقين منخفضي الجودة (المزعجين) تلقائياً
- قياس عدم يقين التصنيف (الإنتروبيا) لكل عنصر
تعمل MACE مع أنواع التعليق التوضيحي الفئوية: radio، likert، select، وmultiselect. لا تنطبق على التعليقات التوضيحية النصية الحرة أو النطاقات أو أشرطة التمرير أو الرقمية.
كيف تعمل
- استخراج البيانات: يجمع Potato جميع التعليقات التوضيحية لكل مخطط عبر جميع المعلّقين، ويبني مصفوفة عناصر-بمعلّقين
- خوارزمية EM: تُشغّل MACE عدة بدايات عشوائية لخوارزمية Variational Bayes EM، وتحتفظ بالحل ذي أفضل log-likelihood
- المخرجات: لكل مخطط، تُنتج MACE التصنيفات المتوقعة، وإنتروبيا التصنيف (عدم اليقين)، ودرجات كفاءة كل معلّق
- التشغيل: تعمل MACE تلقائياً بعد كل N تعليق توضيحي جديد (قابل للتهيئة)، أو يمكن تشغيلها يدوياً عبر واجهة برمجة تطبيقات المشرف
التهيئة
mace:
enabled: true
# Run MACE after every N new annotations
trigger_every_n: 10
# Minimum annotators per item before including in computation
min_annotations_per_item: 3
# Minimum eligible items before MACE will run
min_items: 5
# EM algorithm parameters
num_restarts: 10
num_iters: 50
alpha: 0.5 # Prior for annotator spamming (Beta distribution)
beta: 0.5 # Prior for guessing strategy (Dirichlet distribution)التهيئة الحد الأدنى
mace:
enabled: trueتستخدم جميع الإعدادات الافتراضية: التشغيل كل 10 تعليقات توضيحية، تتطلب 3 معلّقين لكل عنصر، حد أدنى 5 عناصر مؤهلة، 10 بدايات عشوائية مع 50 تكراراً لكل منها.
مرجع التهيئة
| الخيار | النوع | الافتراضي | الوصف |
|---|---|---|---|
enabled | boolean | false | تفعيل MACE |
trigger_every_n | integer | 10 | التشغيل بعد كل N تعليق توضيحي جديد |
min_annotations_per_item | integer | 3 | الحد الأدنى لعدد المعلّقين لكل عنصر (يجب أن يكون >= 2) |
min_items | integer | 5 | الحد الأدنى للعناصر المؤهلة قبل التشغيل |
num_restarts | integer | 10 | البدايات العشوائية لخوارزمية EM |
num_iters | integer | 50 | تكرارات EM لكل بداية |
alpha | float | 0.5 | المسبق لإزعاج المعلّق |
beta | float | 0.5 | المسبق لاستراتيجية التخمين |
نقاط نهاية واجهة برمجة تطبيقات المشرف
تتطلب جميع نقاط نهاية MACE مصادقة المشرف عبر رأس X-API-Key.
نظرة عامة
curl http://localhost:8000/admin/api/mace/overview \
-H "X-API-Key: your-admin-key"تُرجع درجات كفاءة المعلّقين وحالة MACE:
{
"enabled": true,
"has_results": true,
"schemas": ["sentiment"],
"annotator_competence": {
"user_1": {"average": 0.92, "per_schema": {"sentiment": 0.92}},
"user_2": {"average": 0.85, "per_schema": {"sentiment": 0.85}},
"user_3": {"average": 0.45, "per_schema": {"sentiment": 0.45}}
},
"total_annotations": 30,
"annotations_until_next_run": 0
}التنبؤات
curl "http://localhost:8000/admin/api/mace/predictions?schema=sentiment" \
-H "X-API-Key: your-admin-key"تُرجع التصنيفات المتوقعة والإنتروبيا لكل عنصر.
التشغيل اليدوي
curl -X POST http://localhost:8000/admin/api/mace/trigger \
-H "X-API-Key: your-admin-key"تفسير النتائج
كفاءة المعلّق
- 0.9 - 1.0: معلّق موثوق للغاية
- 0.7 - 0.9: معلّق جيد، خلافات عرضية
- 0.5 - 0.7: معلّق متوسط، قد يستفيد من تدريب إضافي
- أقل من 0.5: معلّق مزعج محتمل أو معلّق مشوّش
إنتروبيا التصنيف
- قريبة من 0.0: ثقة عالية في التصنيف المتوقع
- أعلى من 0.5: عدم يقين معتدل، قد يكون العنصر غامضاً بالفعل
- قريبة من log(num_labels): أقصى عدم يقين، لا إجماع
التكامل مع التحكيم
عند تفعيل كل من MACE والتحكيم، تظهر التصنيفات المتوقعة من MACE كإشارة إضافية في واجهة التحكيم:
adjudication:
enabled: true
adjudicator_users: ["admin"]
min_annotations: 2
mace:
enabled: true
trigger_every_n: 10
min_annotations_per_item: 2أفضل الممارسات
- ابدأ بالإعدادات الافتراضية - تعمل التهيئة الافتراضية بشكل جيد لمعظم السيناريوهات
- راقب درجات الكفاءة - استخدم لوحة تحكم المشرف لتتبع جودة المعلّقين بمرور الوقت
- ادمج مع مراحل التدريب - استخدم التدريب لتأهيل المعلّقين، ثم MACE لمراقبة الجودة المستمرة
- حدد الحدود المناسبة - قلّل
min_annotations_per_itemلمشاريع التعليق التوضيحي الأصغر
قراءات إضافية
- مراقبة الجودة - آليات مراقبة الجودة الأخرى
- لوحة تحكم المشرف - مراقبة تقدم التعليق التوضيحي
- دعم الذكاء الاصطناعي - التعليق التوضيحي بمساعدة الذكاء الاصطناعي
للاطلاع على تفاصيل التنفيذ، راجع الوثائق المصدرية.