जब कोई मॉडल कुछ गढ़ देता है, तो पूरे उत्तर पर एक थम्ब्स-डाउन आपको लगभग कुछ नहीं बताता। आप जानते हैं कि कहीं कुछ गलत है। आप नहीं जानते कि कौन सा वाक्य, किस तरह की त्रुटि, या वह कितनी बुरी है। स्पैन एनोटेशन इसे ठीक करता है: एनोटेटर ठीक-ठीक शब्दों को हाइलाइट करता है और लेबल करता है कि उनमें क्या गलत है।

यह वही विचार है जो MQM के पीछे है, वह त्रुटि-स्पैन ढाँचा जिसका उपयोग मशीन-अनुवाद मूल्यांकन वर्षों से करता आ रहा है। स्पैन चिह्नित करें, त्रुटि को वर्गीकृत करें, गंभीरता को रेट करें। परिणाम ऐसा डेटा होता है जिस पर आप वास्तव में कार्रवाई कर सकते हैं।

स्पैन पूरे-उत्तर वाले फ़्लैग से बेहतर क्यों हैं

पूरे-उत्तर वाला "अनिष्ठ" (unfaithful) लेबल एक सारांश आँकड़ा है। एक स्पैन एक स्थान और एक निदान है। स्पैन के साथ आप प्रति प्रकार त्रुटि दरें माप सकते हैं, कई आउटपुट में पैटर्न पहचान सकते हैं, और जिस विफलता-तरीके की आप परवाह करते हैं उसके लिए लक्षित ट्रेनिंग डेटा बना सकते हैं। जब निर्णय की इकाई पूरी प्रतिक्रिया हो तो इनमें से कुछ भी संभव नहीं है।

Potato में इसे सेट करना

समस्याग्रस्त टेक्स्ट को हाइलाइट करें, त्रुटि के प्रकार को लेबल करें, और एक गंभीरता निर्णय जोड़ें ताकि एक मामूली चूक और एक खतरनाक गढ़ंत को समान भार न मिले।

yaml

annotation_schemes:
  - annotation_type: span
    name: errors
    description: "Highlight each problematic span and label the error type."
    labels: [unsupported_claim, factual_error, contradiction, fabricated_citation]
    label_colors:
      unsupported_claim: "#f59e0b"
      factual_error: "#ef4444"
      contradiction: "#8b5cf6"
      fabricated_citation: "#ec4899"
  - annotation_type: radio
    name: severity
    description: "How serious is the worst error?"
    labels: [Minor, Major, Critical]

वे नियम जो आपके डेटा की गुणवत्ता तय करते हैं

एनोटेटर को स्रोत सामग्री दें। "असमर्थित" इसके बिना अपरिभाषेय है, इसलिए दस्तावेज़ या संदर्भ स्क्रीन पर होने चाहिए, किसी टैब के पीछे नहीं।

अपना सीमा-नियम एक बार तय करें। क्या स्पैन पूरे वाक्य को कवर करता है या सिर्फ़ गलत उपवाक्य को? दोनों बचाव योग्य हैं; एक चुनें और उसे लिख लें।

किनारों पर व्यक्तिपरकता की अपेक्षा करें। निष्ठा के निर्णय सीमावर्ती मामलों पर अलग-अलग हो जाते हैं, इसलिए एक नमूने पर ओवरलैप एकत्र करें और संख्याओं पर भरोसा करने से पहले सहमति जाँचें।

आगे कहाँ जाएँ

पूरा विवरण, जिसमें यह शामिल है कि प्रत्येक त्रुटि प्रकार को कैसे परिभाषित किया जाए, हैल्यूसिनेशन का पता लगाना मार्गदर्शिका में है। इस समस्या के रिट्रीवल-आधारित संस्करण के लिए, RAG मूल्यांकन और स्पैन एनोटेशन मार्गदर्शिका देखें। कार्यान्वयन विवरण के लिए, एरर स्पैन स्रोत दस्तावेज़ देखें।