كم عدد الواسمين الذين تحتاجهم فعلًا؟
تحديد عدد الواسمين والتداخل لمشروع وسم: قواعد إرشادية للمهام الموضوعية والذاتية، والمفاضلة بين التغطية والتداخل، وكيفية ضبط ذلك في Potato.
"كم عدد الواسمين الذين أحتاجهم؟" هو أحد أوائل الأسئلة في أي مشروع، والإجابة الصادقة هي أن ذلك يعتمد على ثلاثة أمور: مدى وضوح المهمة، ومقدار ما يمكنك إنفاقه، وما تنوي فعله بالخلافات. لا يوجد رقم سحري، لكن توجد قيم افتراضية جيدة.
التغطية مقابل التداخل
تنقسم كل ميزانية وسم بين هدفين متنافسين. تعني التغطية وسم عدد أكبر من العناصر المتمايزة، كل منها مرة واحدة. ويعني التداخل وسم العناصر نفسها عدة مرات حتى تتمكن من قياس الاتفاق والتجميع. ولا يمكنك تعظيم الهدفين معًا في آنٍ واحد.
ومن الأنماط التي تعمل بشكل جيد: التداخل الكامل على مجموعة فرعية صغيرة لقياس الاتفاق وتأكيد أن المهمة محددة جيدًا، ثم الوسم الفردي للبقية بمجرد أن تثق بها. فتحصل على إشارة جودة دون أن تدفع لوسم كل شيء ثلاث مرات.
قواعد إرشادية
بالنسبة للمهام ذات الفئات الواضحة والاتفاق العالي، يتولى واسم واحد معظم العناصر، مع تداخل واسمَين أو ثلاثة على عينة بنسبة 5 إلى 10 بالمئة لمراقبة الجودة.
وبالنسبة للمهام الذاتية إلى حد معتدل، استخدم ثلاثة واسمين لكل عنصر واحسم بالتصويت بالأغلبية أو بنموذج مُرجَّح بالكفاءة.
وبالنسبة للأعمال الذاتية حقًّا، مثل الحكم على الإساءة أو العاطفة أو التفضيل، استخدم خمسة واسمين أو أكثر لكل عنصر، وفكِّر في الاحتفاظ بكامل توزيع التسميات بدلًا من اختزاله في إجابة واحدة. فالخلاف غالبًا ما يكون إشارة حقيقية وليس ضجيجًا.
ويقلِّل المزيد من الواسمين من تباين التسمية المجمَّعة للعنصر، لكن مع تناقص العائد. فالانتقال من واسم واحد إلى ثلاثة يساعد أكثر بكثير من الانتقال من سبعة إلى تسعة.
ضبط التداخل في Potato
يتحكم الإسناد التلقائي في Potato في عدد الواسمين الذين يرون كل عنصر وكيفية توزيع العناصر بين الأشخاص.
automatic_assignment:
on: true
instance_per_annotator: 50 # items each person labels
labels_per_instance: 3 # annotators per item (overlap)عدد الأفراد ليس بديلًا عن ضبط الجودة
لا تفيد إضافة الواسمين إذا كان بعضهم غير موثوق. اقرِن التداخل بعناصر المعيار الذهبي وفحوص الانتباه حتى تتمكن من ترجيح العمل منخفض الجودة أو استبعاده قبل التجميع. وللاطلاع على المنطق الكامل، انظر دليل كم عدد الواسمين الذين تحتاجهم؟ والاتفاق بين الواسمين. وللتفاصيل التقنية، انظر وثائق المصدر ووثائق ضبط الجودة.