توثيق مجموعات البيانات والنماذج: صحائف البيانات، وبيانات البيانات، وبطاقات النماذج
مرجع لأطر التوثيق المعيارية الثلاثة للبيانات المُوسَمة والنماذج المبنية عليها، وما يغطيه كل إطار، ومتى تختار أيًّا منها، وكيف يربط بينها الإبلاغ عن قابلية إعادة الإنتاج.
أصبحت ثلاثة معايير توثيق هي القاعدة المتبعة لبيانات تعلّم الآلة: بيانات البيانات وصحائف البيانات لمجموعة البيانات نفسها، وبطاقات النماذج لما تدرّبه عليها. وهي تتداخل بشكل كبير، ولا يُعدّ أيٌّ منها اختياريًا إذا أردت أن تحظى البيانات بالثقة وأن يُعاد استخدامها. هذا الدليل مرجعٌ لما يغطيه كل معيار ومتى تلجأ إليه. وللاطلاع على شرح سردي لكيفية كتابة أحدها، راجع المنشور المرافق حول توثيق مجموعة بيانات الوسم لديك؛ أما هذه الصفحة فهي مقارنة المعايير.
لماذا التوثيق المُنظَّم لا ملف README
تتقادم مجموعة البيانات المُوسَمة بلا توثيق تقادمًا سيئًا. فبعد ستة أشهر، لا يستطيع أحد أن يحدد كيف جرى أخذ عيّناتها، أو من وسمها، أو ما المقصود من الوسم، فتتحول البيانات إلى صندوق أسود يثق الناس به ثقة عمياء أو يتخلصون منه. وتتكرر تكلفتان محددتان: تعذّر إعادة الإنتاج (لا يمكنك إعادة بناء مجموعة البيانات أو تفسير تباين ما دون معرفة طريقة أخذ العيّنات، ونسخة الإرشادات، ومجموعة المُوسِّمين) والتحيّز الخفي (الوسوم الصادرة عن مجموعة ضيقة وغير موثّقة تحمل نقاطًا عمياء تبقى غير مرئية إلى أن تظهر في مرحلة الإنتاج). وقد وُجدت الأطر التالية لجعل مَن وكيف واضحين قبل أن تتسبب أيٌّ منهما في مشكلة.
المعايير الثلاثة
يستهدف كل إطار مُنتَجًا وجمهورًا مختلفين، لكنها صُممت لتتكامل فيما بينها.
تُعدّ بيانات البيانات (Bender and Friedman, 2018) المخطط الخاص بمعالجة اللغات الطبيعية. فهي تصف مجموعة بيانات لغوية، ومسوّغ التنسيق، والتنوّع اللغوي والمتحدثين به، والسمات الديموغرافية للمُوسِّمين، والإرشادات، والاستخدام المقصود، بحيث يستطيع القارئ أن يحكم على مدى تعميم النتائج وعلى الفئات السكانية التي تُمثّلها البيانات تمثيلًا ناقصًا. الجأ إلى بيان البيانات حين تكون البيانات نصًّا ويكون للتنوّع اللغوي أهمية.
تُعدّ صحائف البيانات لمجموعات البيانات (Gebru et al., 2021) النسخة العامة الغرض، المستعارة من الإلكترونيات حيث يُرفق مع كل مكوّن صحيفة بيانات. وهي تطرح مجموعة أسئلة معيارية تشمل الدافع، والتكوين، وعملية الجمع، والمعالجة المسبقة، والاستخدامات المُوصى بها، والصيانة. استخدم صحيفة بيانات لأي مجموعة بيانات لتعلّم الآلة، نصية كانت أم لا؛ فهي تتداخل بشكل كبير مع بيان البيانات، بحيث تكون في مجموعة بيانات لغوية إنما تختار حول أي مجموعة أسئلة تنظّم عملك، لا أن تُنجز الاثنين من الصفر.
تُوثّق بطاقات النماذج (Mitchell et al., 2019) النموذج لا البيانات: استخدامه المقصود، والأهم أداؤه مفصّلًا عبر الفئات الديموغرافية وغيرها بدل عرضه كرقم إجمالي واحد. وبطاقة النموذج هي الموضع الذي تظهر فيه مشكلة الإنصاف.
تُشكّل الثلاثة سلسلة متصلة. فصحيفة البيانات أو بيان البيانات يوثّق البيانات؛ وبطاقة النموذج توثّق ما بُني عليها؛ وقسم السمات الديموغرافية للمُوسِّمين في الأول هو بالضبط ما يجعل التقييم الفئوي في الأخير قابلًا للتفسير. فإذا وثّقت الوسم توثيقًا جيدًا تكون قد قطعت بالفعل معظم الطريق نحو بطاقة نموذج يمكن الدفاع عنها.
| الإطار | يوثّق | الأنسب لـ | الأقسام الرئيسية |
|---|---|---|---|
| بيان البيانات | مجموعة بيانات لغوية | بيانات معالجة اللغات الطبيعية / النصوص | مسوّغ التنسيق، التنوّع اللغوي، السمات الديموغرافية للمتحدثين والمُوسِّمين، الإرشادات |
| صحيفة البيانات | أي مجموعة بيانات لتعلّم الآلة | بيانات تعلّم الآلة عمومًا | الدافع، التكوين، الجمع، الاستخدامات، الصيانة |
| بطاقة النموذج | نموذج مُدرَّب | أي نموذج مُصدَر | الاستخدام المقصود، التقييم المفصّل، القيود |
قابلية إعادة الإنتاج هي الركيزة الرابعة
التوثيق وقابلية إعادة الإنتاج هما الهدف نفسه من زاويتين. فقد أبلغ Pineau et al. (2021) عن برنامج قابلية إعادة الإنتاج في NeurIPS، ولخّصوه في قائمة تحقق لقابلية إعادة الإنتاج: أبلغ عن البيانات الدقيقة، وخطوات الجمع والمعالجة المسبقة، وإعداد التقييم، وقدرٍ من التفاصيل يكفي لإعادة تنفيذ العمل. وبالنسبة لمشروع وسم تحديدًا، فإن الحقائق الحاسمة لقابلية إعادة الإنتاج هي تلك التي تطلبها صحيفة البيانات أصلًا: كيف أُخذت عيّنات العناصر، وأي نسخة من الإرشادات استُخدمت، ومن قام بالوسم، وكيف عولج الاختلاف. فإذا استطعت الإجابة عن ذلك، كانت مجموعة البيانات موثّقة وقابلة لإعادة الإنتاج معًا؛ وإذا لم تستطع، فتلك فجوة يجب سدّها قبل الإصدار لا بعده.
قائمة تحقق للإصدار
قبل النشر، تأكد من قدرتك على الإجابة عمّا يلي:
- كيف أُخذت عيّنات العناصر، ومن أين؟
- ما هذا التنوّع اللغوي، ومن كتب النص المصدر؟
- من وسمها، وكم عدد الأشخاص، وما التركيبة الديموغرافية للمجموعة؟
- ما الإرشادات التي اتبعوها، وأي نسخة منها؟
- هل جُمِّع الاختلاف في وسم مرجعي، أم حُفظ كتوزيع؟ أبلغ عن الاتفاق في الحالتين.
- فيمَ تُستخدم مجموعة البيانات هذه، وفيمَ ينبغي ألا تُستخدم؟
كيفية القيام بذلك في Potato
يوجد بالفعل معظم توثيق مجموعة البيانات على هيئة مُنتَجات للمشروع، فأنت لا تبدأ من صفحة بيضاء. فالإعداد هو توثيق: يسجّل ملف YAML المخططات، ومجموعات الوسوم، وبنية المهمة، مُدارًا بالإصدارات إلى جوار البيانات، والتعليمات التي كتبتها هي قسم الإرشادات حرفيًا. وإذا نفّذت مرحلة دراسة تمهيدية، فإن السمات الديموغرافية للمُوسِّمين تكون مخزّنة بالفعل لكل مُوسِّم؛ فاجمعها في توزيعات من أجل قسم السمات الديموغرافية للمُوسِّمين. كما يحتفظ التصدير بالمُوسِّم والطابع الزمني على كل وسم، بحيث ينتقل المصدر مع البيانات بدل أن يُجرَّد منها:
{
"id": "doc_001",
"annotations": { "sentiment": "positive" },
"annotator": "user_1",
"timestamp": "2024-01-15T10:30:00Z"
}وعند النشر على الـ Hub، أنشئ بطاقة مجموعة البيانات كخطوة أخيرة من التصدير، واملأ أقسامها من الإعداد، والإرشادات، والسمات الديموغرافية للدراسة التمهيدية التي بحوزتك بالفعل.
قراءات إضافية
- توثيق مجموعة بيانات الوسم لديك، الشرح السردي مع بيان بيانات مُنجَز عمليًا.
- جمع السمات الديموغرافية للمُوسِّمين بمسؤولية، لإنجاز قسم السمات الديموغرافية للمُوسِّمين على نحو صحيح.
- كتابة إرشادات الوسم، التي تصلح أيضًا قسمًا للإرشادات.
- تصدير الوسوم لتعلّم الآلة، لإخراج الوسوم والبيانات الوصفية بصورة نظيفة.