कार्य आवंटन
नियंत्रित करें कि Potato एनोटेशन आइटम को एनोटेटर्स में कैसे वितरित करता है। इसमें सभी आवंटन रणनीतियाँ शामिल हैं, जैसे दोहराव-राउंड अध्ययनों के लिए कस्टम Batch रणनीति, और Prolific या QC-अवरुद्ध कर्मचारियों द्वारा छोड़े गए आवंटनों को वापस लेना।
कार्य आवंटन यह नियंत्रित करता है कि प्रत्येक एनोटेटर कौन-से आइटम देखता है, वह कितने पूरे करता है, प्रत्येक आइटम को कितने एनोटेशन मिलते हैं, और आइटम किस क्रम में दिखाई देते हैं। यह पृष्ठ Potato की आवंटन रणनीतियों, दोहराव-राउंड अध्ययन डिज़ाइनों के लिए कस्टम Batch रणनीति, और क्राउड कर्मचारियों द्वारा छोड़े गए आवंटनों को वापस लेने का तरीका कवर करता है।
आवंटन रणनीतियाँ
assignment_strategy को निम्न में से किसी एक पर सेट करें:
| रणनीति | यह क्या करती है |
|---|---|
random | आइटम को यादृच्छिक रूप से आवंटित करती है (डिफ़ॉल्ट)। |
fixed_order | आइटम को डेटासेट के क्रम में आवंटित करती है। |
least_annotated | उन आइटम को प्राथमिकता देती है जिन्हें अब तक सबसे कम एनोटेशन मिले हैं। |
max_diversity | उन आइटम को प्राथमिकता देती है जिनमें मौजूदा एनोटेशन के बीच सबसे अधिक मतभेद है। |
diversity_clustering | आइटम को एम्बेड करके क्लस्टर में बाँटती है, फिर उन्हें क्लस्टरों में राउंड-रॉबिन क्रम में परोसती है। |
batch | आवंटन को स्पष्ट एनोटेटर/आइटम समूहों तक सीमित करती है (नीचे देखें)। |
priority | सबसे अधिक प्राथमिकता वाले आइटम पहले परोसती है; ट्रायाज क्यू देखें। |
active_learning | अनिश्चित आइटम को प्राथमिकता देने के लिए एक मॉडल का उपयोग करती है। |
assignment_strategy: random
max_annotations_per_user: 10 # -1 for unlimited
max_annotations_per_item: 3 # -1 for unlimitedकस्टम Batch आवंटन
batch रणनीति आइटम के पूर्वनिर्धारित बैच विशिष्ट एनोटेटर्स को आवंटित करती है। यह दोहराव-राउंड अध्ययन डिज़ाइनों के लिए बनाई गई है, जहाँ जिन्हीं एनोटेटर्स ने पहले राउंड का बैच देखा था, उन्हीं को मेल खाता दूसरे राउंड का बैच मिलना चाहिए।
assignment_strategy: batch
num_annotators_per_item: 4
batch_assignment:
groups:
- name: round1_batch_a
annotators: ["u1", "u2", "u3", "u4"]
instances: ["r2_item_001", "r2_item_002"]लंबे बैचों के लिए, इंस्टेंस सूची को एक अलग डेटा फ़ाइल (json, jsonl, csv, tsv, या parquet) में ले जाएँ; ID को item_properties.id_key के साथ पढ़ा जाता है:
batch_assignment:
groups:
- name: round1_batch_a
annotators: ["u1", "u2", "u3", "u4"]
instances_file: batches/round1_batch_a.csvआइटम सीधे अपने अनुमत एनोटेटर्स का नाम भी दे सकते हैं, जो तब उपयोगी होता है जब दूसरे राउंड का डेटा पहले राउंड के एनोटेशन से उत्पन्न होता है:
assignment_strategy: batch
batch_assignment:
annotator_key: round1_annotatorsकॉन्फ़िगर किए गए समूहों के बाहर के उपयोगकर्ताओं को इस रणनीति के अंतर्गत कोई आइटम नहीं मिलते।
छोड़े गए आवंटनों को वापस लेना
क्राउडसोर्सिंग बैचों में, आवंटित आइटम प्राप्त करने के बाद कर्मचारी उन्हें वापस कर सकते हैं, समय-सीमा पार कर सकते हैं, या गुणवत्ता जाँच में असफल हो सकते हैं। instance_reclaim सक्षम होने पर, Potato आवंटित किंतु बिना एनोटेट किए आइटम को पूल में वापस लौटा देता है ताकि उन्हें दोबारा आवंटित किया जा सके।
instance_reclaim:
enabled: true
timeout_hours: 24
preserve_completed_annotations: trueवापस लेना स्वतः चलता है: आवंटन चलने पर बासी आवंटनों के लिए, उन Prolific कर्मचारियों के लिए जिनके सबमिशन RETURNED, TIMED-OUT, या REJECTED हो जाते हैं, और ध्यान-जाँच में विफलता के कारण अवरुद्ध उपयोगकर्ताओं के लिए (जो अपने बिना एनोटेट किए आइटम तुरंत मुक्त कर देते हैं)।
आप प्रत्येक कारण के अनुसार तय कर सकते हैं कि वापस लिए गए कर्मचारी के पूर्ण किए गए एनोटेशन रखने हैं या नहीं। इससे आप समय-सीमा पार कर चुके Prolific कर्मचारी के आंशिक कार्य पर भरोसा कर सकते हैं, जबकि गुणवत्ता नियंत्रण द्वारा अवरुद्ध कर्मचारी का सब कुछ हटा सकते हैं:
instance_reclaim:
enabled: true
timeout_hours: 24
preserve_completed_annotations: true # default for reasons not overridden below
prolific:
status_policies:
TIMED-OUT:
preserve_completed_annotations: true
RETURNED:
preserve_completed_annotations: true
REJECTED:
preserve_completed_annotations: false
quality_control:
preserve_completed_annotations: falseजब preserve_completed_annotations का मान false होता है, तो Potato उस उपयोगकर्ता के आवंटित आइटम के लिए उसके एनोटेशन हटा देता है, उसका एनोटेटर श्रेय हटा देता है, और आइटम को पूल में लौटा देता है। जो असफल ध्यान-जाँच प्रतिक्रिया अवरोध को ट्रिगर करती है, उसे कभी नहीं रखा जाता।
संबंधित
- विषमांगी कवरेज — प्रति-आइटम एनोटेटर सीमाएँ और ओवरलैप नमूनाकरण
- क्राउडसोर्सिंग — MTurk और Prolific एकीकरण
- सिग्नल-आधारित ट्रायाज क्यू —
priorityरणनीति
कार्यान्वयन विवरण के लिए, स्रोत दस्तावेज़ देखें।