Skip to content
Guides3 min read

आपको वास्तव में कितने एनोटेटर की ज़रूरत है?

किसी एनोटेशन प्रोजेक्ट के लिए एनोटेटर की संख्या और ओवरलैप तय करना: वस्तुनिष्ठ और व्यक्तिपरक कार्यों के लिए सामान्य नियम, कवरेज-बनाम-ओवरलैप का व्यापार-संतुलन, और इसे Potato में कैसे सेट करें।

Potato Team

"मुझे कितने एनोटेटर की ज़रूरत है?" किसी भी प्रोजेक्ट के पहले सवालों में से एक है, और ईमानदार जवाब यह है कि यह तीन चीज़ों पर निर्भर करता है: कार्य कितना स्पष्ट है, आप कितना खर्च कर सकते हैं, और आप असहमतियों के साथ क्या करने की योजना बना रहे हैं। कोई जादुई संख्या नहीं है, लेकिन कुछ अच्छे डिफ़ॉल्ट ज़रूर हैं।

कवरेज बनाम ओवरलैप

हर एनोटेशन बजट दो प्रतिस्पर्धी लक्ष्यों के बीच बँट जाता है। कवरेज का मतलब है अधिक अलग-अलग आइटम को, प्रत्येक को एक बार, लेबल करना। ओवरलैप का मतलब है एक ही आइटम को कई बार लेबल करना ताकि आप सहमति माप सकें और उन्हें एकत्रित कर सकें। आप दोनों को एक साथ अधिकतम नहीं कर सकते।

एक तरीका जो अच्छी तरह काम करता है: सहमति मापने और यह पुष्टि करने के लिए कि कार्य अच्छी तरह परिभाषित है, एक छोटे उपसमुच्चय को पूरी तरह ओवरलैप करें, फिर जब आपको उस पर भरोसा हो जाए तो बाकी को एक-एक बार सिंगल-एनोटेट करें। आपको हर चीज़ को तीन बार लेबल करने का भुगतान किए बिना एक गुणवत्ता संकेत मिल जाता है।

सामान्य नियम

स्पष्ट श्रेणियों और उच्च सहमति वाले कार्यों के लिए, अधिकांश आइटम एक एनोटेटर संभालता है, साथ में गुणवत्ता की निगरानी के लिए 5 से 10 प्रतिशत नमूने पर दो या तीन एनोटेटर ओवरलैप करते हैं।

मध्यम रूप से व्यक्तिपरक कार्यों के लिए, प्रति आइटम तीन एनोटेटर का उपयोग करें और बहुमत के मत या योग्यता-भारित मॉडल से सुलझाएँ।

वास्तव में व्यक्तिपरक काम के लिए, जैसे आपत्ति, भावना या प्राथमिकता का आकलन करना, प्रति आइटम पाँच या अधिक एनोटेटर का उपयोग करें, और लेबल को एक उत्तर में सिमटाने के बजाय उनके पूरे वितरण को बनाए रखने पर विचार करें। असहमति अक्सर एक वास्तविक संकेत होती है, शोर नहीं।

अधिक एनोटेटर किसी आइटम के समग्र लेबल की विचरणशीलता (variance) को कम करते हैं, लेकिन घटते प्रतिफल के साथ। एक एनोटेटर से तीन तक जाना, सात से नौ तक जाने की तुलना में कहीं अधिक मदद करता है।

Potato में ओवरलैप सेट करना

Potato का स्वचालित असाइनमेंट नियंत्रित करता है कि प्रत्येक आइटम को कितने एनोटेटर देखते हैं और आइटम लोगों के बीच कैसे वितरित होते हैं।

yaml
automatic_assignment:
  on: true
  instance_per_annotator: 50     # items each person labels
  labels_per_instance: 3         # annotators per item (overlap)

संख्या-बल गुणवत्ता नियंत्रण का विकल्प नहीं है

एनोटेटर जोड़ने से मदद नहीं मिलती यदि उनमें से कुछ अविश्वसनीय हैं। ओवरलैप को गोल्ड-स्टैंडर्ड आइटम और ध्यान-जाँच (attention checks) के साथ जोड़ें ताकि आप एकत्रीकरण से पहले निम्न-गुणवत्ता वाले काम को भार दे सकें या हटा सकें। पूरे तर्क के लिए, आपको कितने एनोटेटर की ज़रूरत है? मार्गदर्शिका और इंटर-एनोटेटर सहमति देखें। कार्यान्वयन विवरण के लिए, स्रोत दस्तावेज़ और गुणवत्ता नियंत्रण दस्तावेज़ देखें।