Skip to content

डेटा एनोटेशन की अवधारणाएँ

Potato के बारे में सामान्य प्रश्नों के उत्तर खोजें। जो खोज रहे हैं वह नहीं मिला? हमारे Discord में शामिल हों या दस्तावेज़ीकरण देखें।

डेटा एनोटेशन की अवधारणाएँ

डेटा एनोटेशन कच्चे डेटा—जैसे टेक्स्ट, चित्र, ऑडियो, वीडियो या मॉडल आउटपुट—में लेबल जोड़ने की प्रक्रिया है, ताकि उस डेटा का उपयोग मशीन लर्निंग मॉडल को प्रशिक्षित या मूल्यांकित करने के लिए किया जा सके। लेबल एक श्रेणी, एक हाइलाइट किया गया स्पैन, एक रेटिंग या एक तुलना हो सकता है। Potato आपको एक छोटे से YAML कॉन्फ़िगरेशन के साथ इनमें से किसी भी प्रकार का कार्य सेट अप करने देता है।

इंटर-एनोटेटर सहमति यह मापती है कि स्वतंत्र एनोटेटर कितनी बार एक ही आइटम को एक ही लेबल देते हैं। यह इस बात का मानक प्रमाण है कि कोई कार्य अच्छी तरह परिभाषित है और लेबल विश्वसनीय हैं। सामान्य माप हैं Cohen's kappa, Fleiss' kappa और Krippendorff's alpha, जो संयोग से होने वाली सहमति को सुधारते हैं। Potato अपने एडमिन डैशबोर्ड में Krippendorff's alpha की रिपोर्ट देता है।

यह आपके डेटा और लक्ष्यों पर निर्भर करता है, इसलिए इसका कोई एक उत्तर नहीं है। ऐसे काम के लिए जो टेक्स्ट, चित्र, ऑडियो और AI-एजेंट मूल्यांकन तक फैला हो, Potato एक मज़बूत मुफ़्त और ओपन-सोर्स विकल्प है, जिसमें 30 से अधिक कार्य प्रकार और शून्य-कोड YAML सेटअप है। Label Studio, Doccano, brat और Argilla अलग-अलग खूबियों वाले अन्य ओपन-सोर्स विकल्प हैं।

कार्य और लेबल सेट को परिभाषित करने से शुरुआत करें, फिर स्पष्ट दिशानिर्देश लिखें और कई एनोटेटर से ओवरलैप होने वाले आइटम लेबल करवाएँ। सहमति मापें, असहमतियों को सुलझाएँ, और परिणाम को ऐसे फ़ॉर्मेट में निर्यात करें जिसे आपकी ट्रेनिंग पाइपलाइन पढ़ सके। Potato इस पूरे वर्कफ़्लो को कवर करता है और JSON, CoNLL, Hugging Face, spaCy और COCO/YOLO में निर्यात करता है।

स्पष्ट, वस्तुनिष्ठ कार्यों में अक्सर एक एनोटेटर से काम चल सकता है, साथ में गुणवत्ता जाँच के लिए एक छोटा ओवरलैप होने वाला नमूना। मध्यम रूप से व्यक्तिपरक कार्यों में आम तौर पर तीन एनोटेटर का उपयोग होता है, जिन्हें बहुमत के मत से सुलझाया जाता है। अत्यधिक व्यक्तिपरक कार्यों में पाँच या अधिक का उपयोग होता है, और कभी-कभी एक उत्तर पर सिमटने के बजाय राय की पूरी श्रेणी को बनाए रखा जाता है। तीन से आगे लाभ तेज़ी से घटने लगता है।

सक्रिय लर्निंग यह चुनती है कि आगे किन आइटम को एनोटेट किया जाए, ताकि कोई मॉडल यादृच्छिक नमूनाकरण की तुलना में कम लेबल के साथ लक्ष्य सटीकता तक पहुँच सके। मॉडल उन आइटम को चिह्नित करता है जिन्हें वह सबसे अधिक जानकारीपूर्ण पाता है—अक्सर वे जिनके बारे में वह सबसे कम निश्चित होता है—और कोई व्यक्ति उन्हें लेबल करता है। Potato uncertainty, diversity, BADGE और BALD रणनीतियों का समर्थन करता है।

वर्गीकरण पूरे आइटम को एक या अधिक लेबल देता है, जैसे किसी समीक्षा को सकारात्मक या नकारात्मक चिह्नित करना। स्पैन एनोटेशन किसी आइटम के भीतर एक क्षेत्र को चिह्नित करता है, जैसे किसी वाक्य में नाम को या ऑडियो वेवफ़ॉर्म पर किसी घटना को हाइलाइट करना। नामित इकाई पहचान (named entity recognition) और त्रुटि चिह्नीकरण स्पैन कार्य हैं। Potato दोनों का समर्थन करता है, और आप उन्हें एक ही स्क्रीन पर जोड़ सकते हैं।

लोगों से आउटपुट का आकलन करवाएँ: उन्हें किसी पैमाने पर रेट करवाएँ, दो को साथ-साथ रखकर तुलना करवाएँ, किसी रूब्रिक के विरुद्ध स्कोर करवाएँ, या स्पैन के साथ विशिष्ट त्रुटियाँ चिह्नित करवाएँ। ऐसे एजेंट के लिए जो कई चरण लेते हैं, आप उसके प्रक्षेप-पथ (trajectory) के हर चरण का आकलन भी कर सकते हैं। Potato ये सभी सुविधाएँ प्रदान करता है और OpenAI, Anthropic तथा ReAct जैसे फ़ॉर्मेट से एजेंट ट्रेस पढ़ सकता है।

अभी भी प्रश्न हैं?

हमारा समुदाय मदद के लिए यहाँ है। रीयल-टाइम समर्थन के लिए Discord में शामिल हों या विस्तृत गाइड के लिए दस्तावेज़ीकरण देखें।