القوة الإحصائية وحجم العينة في دراسات التوسيم

كم عنصرًا تحتاج حتى تكون النتيجة ذات معنى، ولماذا يختلف هذا السؤال عن عدد المُوسِّمين لكل عنصر، وكيف تتجنّب دراسات التوسيم والتقييم الضعيفة القوة والمبالِغة في ادّعاءاتها.

سؤال "كم مُوسِّمًا؟" وسؤال "كم عنصرًا؟" سؤالان مختلفان يُخلَط بينهما باستمرار. يتحكّم تداخل المُوسِّمين في مدى موثوقية وسم كل عنصر، بينما يتحكّم عدد العناصر في ما إذا كان الفرق الذي تلاحظه حقيقيًا أم مجرد ضوضاء. قد تضمّ الدراسة خمسة مُوسِّمين لكل عنصر وتظلّ أصغر من أن تدعم استنتاجها. يتناول هذا الدليل المحور الثاني، أي القوة الإحصائية، وكيف تمنع دراسة توسيم أو تقييم من الادّعاء بأكثر مما تدعمه بياناتها.

ميزانيتان، لا ميزانية واحدة

يُنفق كل مشروع توسيم جهده على محورين مستقلّين، ومن المفيد تسميتهما على حدة:

التداخل (عدد المُوسِّمين لكل عنصر): يشتري لك موثوقية الوسم، أي الثقة بأن وسم عنصر بعينه صحيح. هذا هو موضوع كم مُوسِّمًا تحتاج؟.
حجم العينة (عدد العناصر): يشتري لك القوة الإحصائية، أي القدرة على كشف فرق حقيقي بين الشروط أو النماذج أو المجموعات.

يتنافس الاثنان على ميزانية ثابتة لكنهما يحلّان مشكلتين مختلفتين. عشرة مُوسِّمين يوسِّمون 50 عنصرًا يمنحونك أوسامًا موثوقة جدًا لعيّنة أصغر من أن تُقارَن بها أي شيء. مُوسِّم واحد يوسِّم 5000 عنصر يمنحك أوسامًا مشوّشة لكنها كافية عددًا لكشف أثر حقيقي. وأيّ الخطأين أنت على وشك ارتكابه يتوقّف على السؤال الذي تطرحه فعليًا.

ما القوة الإحصائية

القوة الإحصائية هي احتمال أن تكشف دراستك أثرًا موجودًا حقًا. القوة المنخفضة تعني أنه حتى حين يكون النموذج A أفضل فعلًا من النموذج B، كثيرًا ما تعجز تجربتك عن إظهار ذلك، وبصورة أقل وضوحًا أن النتائج "الدالّة" التي تحصل عليها فعلًا يُرجَّح أكثر أن تكون مصادفات بأحجام أثر منتفخة. العُرف هو استهداف قوة قدرها 80%، وهو ما يستلزم أن تُقرّر مسبقًا أصغر فرق يستحق الكشف وأن تحدّد حجم الدراسة بما يلتقطه.

الاكتشاف المزعج هو كثرة تخطّي هذه الخطوة. أجرى Card et al. (2020) تحليلات قوة عبر إعدادات شائعة في معالجة اللغة الطبيعية ووجدوا أن كثيرًا من المقارنات المنشورة ضعيفة القوة بشدّة: فلكي تكشف بموثوقية الفروق الصغيرة التي تدّعيها الأوراق المعتادة، ولا سيّما في التقييم البشري، غالبًا ما تحتاج مئات إلى آلاف العناصر، أي أكثر بكثير مما تستخدمه الدراسات فعليًا. وخلاصتهم العملية هي إجراء حساب القوة قبل جمع البيانات، لا استنباط الدلالة الإحصائية بعدها.

إجراء اختبار الدلالة على نحو صحيح

توافر عناصر كافية شرط ضروري لكنه غير كافٍ؛ عليك أيضًا أن تختبر على نحو صحيح. يُعدّ Dror et al. (2018) المرجع المعياري هنا، ونصيحته محدّدة:

طابِق الاختبار مع البيانات. لا تتوزّع مقاييس معالجة اللغة الطبيعية عادةً توزيعًا طبيعيًا، فاعتمد على الخيارات اللابارامترية، أي اختبارَي bootstrap والتبديل، بدل افتراض انطباق اختبار t.
صحِّح للمقارنات المتعدّدة. اختبار نماذج أو مقاييس أو مجموعات فرعية كثيرة يضخّم الإيجابيات الكاذبة؛ فعدِّل (Bonferroni، أو الأفضل Benjamini-Hochberg) حين تُجري اختبارات كثيرة.
أفصِح عن حجم الأثر وفترة ثقة، لا عن قيمة p وحدها. مع عدد كافٍ من العناصر، قد يكون الفرق دالًّا إحصائيًا وعديم المعنى عمليًا. يخبر حجمُ الأثر والفترة القارئَ بما إذا كان الأمر جديرًا بالاهتمام.

وصفة قابلة للتطبيق

حدِّد أصغر فرق ذي أهمية (لنقل فرق مقداره نقطتان في معدّل الفوز).
أجرِ تحليل قوة لذلك الأثر عند قوة 80% لتحصل على عدد مستهدف من العناصر.
قرِّر التداخل على حدة، بناءً على مدى ذاتية الأوسام (انظر دليل عدد المُوسِّمين).
بعد الجمع، استخدم اختبار bootstrap أو التبديل، وصحِّح لعدد المقارنات، وأفصِح عن أحجام الأثر مع فتراتها.

الترتيب مهمّ: فتحديد حجم الدراسة بعد رؤية البيانات هو الطريقة التي تُلبَس بها النتائج الضعيفة القوة ثوبَ الاكتشافات.

تنفيذ ذلك في Potato

القوة قرارُ تصميم لا مفتاحُ إعداد، لكن مهمّة Potato أن تمنحك بيانات نظيفة تُجري عليها التحليل. اضبط التداخل من أجل الموثوقية وعدد المثيلات من أجل حجم العينة في إسناد المهام:

yaml

automatic_assignment:
  on: true
  instance_per_annotator: 400    # sample size: items each annotator sees
  labels_per_instance: 3         # overlap: reliability per item

استقلال المِقبضين مقصود. يحتفظ التصدير بوسم كل مُوسِّم على حدة مع معرّفه وطابعه الزمني، وهو ما يتيح لك إعادة المعاينة عبر bootstrap، حسب العنصر وحسب المُوسِّم، حين تحسب الدلالة الإحصائية دون اتصال. والاحتفاظ بأوسام كل مُوسِّم بدل الاكتفاء بالتجميع هو ما يجعل التحليل السليم الواعي بالقوة ممكنًا؛ فإن اختزلت الأمر مبكّرًا إلى وسم ذهبي واحد فقدتَ التباين الذي يحتاجه bootstrap.

قراءات إضافية

كم مُوسِّمًا تحتاج؟، جانب الموثوقية من الميزانية.
شرح الاتّفاق بين المُوسِّمين، لقياس الموثوقية بعد أن يتوافر لديك تداخل.
التقييم البشري للنصّ المُولَّد، حيث تشيع المقارنات الضعيفة القوة على نحو خاص.
تصدير التوسيمات من أجل تعلّم الآلة، لإخراج أوسام كل مُوسِّم على حدة بغرض الاختبار.