الاتفاق على النطاقات والمخرجات المهيكلة
لماذا ينهار معامل كابا لكوهين وفلايس في وسم النطاقات والتعرف على الكيانات المسماة والوسم المهيكل، وما البديل: مقياس F1 كاتفاق، والمطابقة التامة مقابل الجزئية، وألفا كريبندورف الموحَّدة.
يفترض الاتفاق المصحَّح للصدفة، مثل كابا كوهين، أن كل مُوسِّم يَسِم المجموعة الثابتة نفسها من العناصر انطلاقًا من المجموعة الثابتة نفسها من الفئات. ويكسر وسم النطاقات هذا الافتراض، إذ قد يختلف المُوسِّمون حول موضع بداية النطاق وموضع نهايته وحتى حول وجوده أصلًا. وبالنسبة إلى النطاقات، فإن المقياس المعياري للموثوقية هو F1 الثنائي، وليس كابا، وعليك أن تقرر مسبقًا هل يُحتسب التداخل الجزئي في الحدود اتفاقًا أم لا. يشرح هذا الدليل سبب فشل المقاييس المعتادة هنا، وما الذي ينبغي الإبلاغ عنه بدلًا منها.
لماذا لا يناسب كابا النطاقات
يحتاج المعامل المصحَّح للصدفة إلى ثلاثة أمور: قائمة ثابتة من العناصر، وقائمة ثابتة من التسميات، والقدرة على حساب مدى تكرار اتفاق المُوسِّمين بمحض الصدفة. ومهام النطاقات لا توفر أيًّا منها على نحو نظيف. فلا توجد قائمة محددة سلفًا من «العناصر» الواجب وسمها، إذ يبتكر المُوسِّم النطاقات وهو يقرأ، فقد يُنتج شخصان عددًا مختلفًا من النطاقات على المستند نفسه. ولا توجد فئة سالبة ذات معنى، فـ«العناصر التي لم يعلِّمها أحد» هي كل السلاسل الفرعية الممكنة، وهي مجموعة هائلة الحجم على نحو فلكي وغير محددة المعالم.
هذه النقطة الأخيرة هي القاضية. فقد بيَّن Hripcsak and Rothschild (2005) أنه حين تكون الفئة السالبة كبيرة جدًّا أو غير محددة، كما في استرجاع المعلومات واستخراج النطاقات، يكون احتمال اتفاق مُوسِّمَين على النطاق العشوائي نفسه صفرًا فعليًّا، ومن ثمَّ لا يكاد تصحيح الصدفة يغيّر شيئًا، ولا تصمد الافتراضات الكامنة وراء كابا. ونتيجتهما هي المبرِّر المعياري لبديل أنظف: إذ إن مقياس F نفسه هو إحصائية الاتفاق المناسبة. عامِل نطاقات أحد المُوسِّمين بوصفها المرجع ونطاقات الآخر بوصفها تنبؤات، واحسب F1، ثم خُذ المتوسط على جميع أزواج المُوسِّمين. ولأن F1 متماثل، فإن ترتيب الزوج لا يهم.
المطابقة التامة أم الجزئية: قرِّر قبل أن تقيس
يعتمد الرقم الذي تُبلغ عنه اعتمادًا كاملًا على ما يُحتسب إصابةً، ولا توجد إجابة كونية واحدة، فبيِّن اختيارك.
- المطابقة التامة: لا يتفق نطاقان إلا إذا تطابق حدّاهما معًا. صارمة، وهي الخيار الصحيح حين تحمل الحدود معنى (الاقتباسات القانونية، الأسماء الكيميائية).
- المطابقة الجزئية / بالتداخل: يتفق نطاقان إذا تداخلا ولو قليلًا، أو تجاوزا عتبة معيَّنة. أكثر تسامحًا، ومعقولة حين يكون وجود الكيان أهم من امتداده الدقيق.
- الحدّ مقابل التسمية: بالنسبة إلى النطاقات المُصنَّفة (التعرف على الكيانات المسماة، NER)، افصِل بين سؤالين: هل علَّم المُوسِّمون الامتداد نفسه؟ وهل منحوه النوع نفسه؟ فالإبلاغ عنهما معًا يخفي أيَّهما هو السبب الفعلي في اختلافك.
يُعدّ Artstein and Poesio (2008) المسح المعياري للاتفاق في اللسانيات الحاسوبية، وهو يعالج بالتفصيل مشكلة «التوحيد» هذه، أي الاختلاف حول كيفية تقطيع النص إلى وحدات. وهو المرجع الذي يُستشهد به حين تحتاج إلى الدفاع عن اختيار منهجي.
متى تريد فعلًا رقمًا مصحَّحًا للصدفة
إذا أمكنك اختزال المهمة إلى مجموعة ثابتة من الوحدات، عاد تصحيح الصدفة صالحًا من جديد. وهناك اختزالان شائعان:
- الوسم على مستوى الرمز: أعِد صياغة مهمة النطاقات بوصفها تسمية لكل رمز (مخطط BIO). عندئذٍ يصبح كل رمز عنصرًا ثابتًا بمجموعة تسميات صغيرة، وينطبق كابا فلايس أو ألفا كريبندورف مباشرة. والمأزق أن الاتفاق على مستوى الرمز يبدو مُضخَّمًا، إذ ينتمي معظم الرموز إلى الفئة السهلة «الخارج»، فقد يخفي الرقم المرتفع اختلافًا حقيقيًّا في الحدود.
- ألفا الموحَّدة: طوَّر Krippendorff (2004) صيغة من ألفا لهذه الحالة تحديدًا، حين يقطِّع المُوسِّمون سلسلة متصلة بأنفسهم. وهي الخيار المبدئي حين تريد رقم موثوقية واحدًا مصحَّحًا للصدفة للتقطيع، على حساب مزيد من التهيئة.
مسار وسط عملي: أبلِغ عن كابا على مستوى الرمز وF1 على مستوى النطاق معًا. فالأول يخبرك عن اتساق التسميات، والثاني عن اتساق الحدود، والفجوة بينهما تخبرك أيَّ مشكلة عليك إصلاحها.
تنفيذ ذلك في Potato
يحسب Potato ألفا كريبندورف تلقائيًّا للمخططات الفئوية، لكن مع مخطط span يخفي الرقم على مستوى المستند اختلاف الحدود، فقِس عند المستوى الذي يهمك فعلًا. والوصفة الموثوقة هي أن تجعل المُوسِّمين يتداخلون على مجموعة فرعية مشتركة، وتُصدِّر نطاقاتهم، وتحسب أنت بنفسك F1 الثنائي وفق قاعدة المطابقة التي اخترتها.
annotation_schemes:
- name: pii_spans
annotation_type: span
description: "Highlight every span that reveals personal information."
labels:
- name: person
- name: location
- name: org
# Overlap a subset so agreement is measurable
automatic_assignment:
on: true
instance_per_annotator: 100
labels_per_instance: 3يحتفظ التصدير بنطاقات كل مُوسِّم مع إزاحات محارفها وتسمياتها، وهو كل ما تحتاجه لحساب F1 للمطابقة التامة أو التداخل دون اتصال، ولفصل اتفاق الحدود عن اتفاق النوع. وإذا كانت نطاقاتك مُصنَّفة، فشغِّل F1 مرتين: مرة بتجاهل النوع (اتفاق الحدود)، ومرة باشتراط تطابق النوع (الاتفاق الكامل).
قراءات إضافية
- شرح الاتفاق بين المُوسِّمين، للمقاييس المصحَّحة للصدفة التي تنطبق فعلًا على المهام الفئوية.
- وسم النطاقات والتعرف على الكيانات المسماة، لتصميم المهمة نفسها.
- حلّ الإحالة المرجعية، حيث للاتفاق مقاييسه المتخصصة الخاصة (MUC وB³ وCEAF).
- تصدير التوسيمات للتعلّم الآلي، لإخراج النطاقات من أجل حساب F1.