Skip to content
Guides3 min read

स्पैन एनोटेशन के साथ हैल्यूसिनेशन ढूँढना

Potato में स्पैन एनोटेशन के साथ ठीक-ठीक शब्दों को हाइलाइट करके और यह लेबल करके कि क्या गलत है, MQM-शैली में मॉडल हैल्यूसिनेशन और तथ्यात्मक त्रुटियाँ पकड़ें।

Potato Team

जब कोई मॉडल कुछ गढ़ देता है, तो पूरे उत्तर पर एक थम्ब्स-डाउन आपको लगभग कुछ नहीं बताता। आप जानते हैं कि कहीं कुछ गलत है। आप नहीं जानते कि कौन सा वाक्य, किस तरह की त्रुटि, या वह कितनी बुरी है। स्पैन एनोटेशन इसे ठीक करता है: एनोटेटर ठीक-ठीक शब्दों को हाइलाइट करता है और लेबल करता है कि उनमें क्या गलत है।

यह वही विचार है जो MQM के पीछे है, वह त्रुटि-स्पैन ढाँचा जिसका उपयोग मशीन-अनुवाद मूल्यांकन वर्षों से करता आ रहा है। स्पैन चिह्नित करें, त्रुटि को वर्गीकृत करें, गंभीरता को रेट करें। परिणाम ऐसा डेटा होता है जिस पर आप वास्तव में कार्रवाई कर सकते हैं।

स्पैन पूरे-उत्तर वाले फ़्लैग से बेहतर क्यों हैं

पूरे-उत्तर वाला "अनिष्ठ" (unfaithful) लेबल एक सारांश आँकड़ा है। एक स्पैन एक स्थान और एक निदान है। स्पैन के साथ आप प्रति प्रकार त्रुटि दरें माप सकते हैं, कई आउटपुट में पैटर्न पहचान सकते हैं, और जिस विफलता-तरीके की आप परवाह करते हैं उसके लिए लक्षित ट्रेनिंग डेटा बना सकते हैं। जब निर्णय की इकाई पूरी प्रतिक्रिया हो तो इनमें से कुछ भी संभव नहीं है।

Potato में इसे सेट करना

समस्याग्रस्त टेक्स्ट को हाइलाइट करें, त्रुटि के प्रकार को लेबल करें, और एक गंभीरता निर्णय जोड़ें ताकि एक मामूली चूक और एक खतरनाक गढ़ंत को समान भार न मिले।

yaml
annotation_schemes:
  - annotation_type: span
    name: errors
    description: "Highlight each problematic span and label the error type."
    labels: [unsupported_claim, factual_error, contradiction, fabricated_citation]
    label_colors:
      unsupported_claim: "#f59e0b"
      factual_error: "#ef4444"
      contradiction: "#8b5cf6"
      fabricated_citation: "#ec4899"
  - annotation_type: radio
    name: severity
    description: "How serious is the worst error?"
    labels: [Minor, Major, Critical]

वे नियम जो आपके डेटा की गुणवत्ता तय करते हैं

एनोटेटर को स्रोत सामग्री दें। "असमर्थित" इसके बिना अपरिभाषेय है, इसलिए दस्तावेज़ या संदर्भ स्क्रीन पर होने चाहिए, किसी टैब के पीछे नहीं।

अपना सीमा-नियम एक बार तय करें। क्या स्पैन पूरे वाक्य को कवर करता है या सिर्फ़ गलत उपवाक्य को? दोनों बचाव योग्य हैं; एक चुनें और उसे लिख लें।

किनारों पर व्यक्तिपरकता की अपेक्षा करें। निष्ठा के निर्णय सीमावर्ती मामलों पर अलग-अलग हो जाते हैं, इसलिए एक नमूने पर ओवरलैप एकत्र करें और संख्याओं पर भरोसा करने से पहले सहमति जाँचें।

आगे कहाँ जाएँ

पूरा विवरण, जिसमें यह शामिल है कि प्रत्येक त्रुटि प्रकार को कैसे परिभाषित किया जाए, हैल्यूसिनेशन का पता लगाना मार्गदर्शिका में है। इस समस्या के रिट्रीवल-आधारित संस्करण के लिए, RAG मूल्यांकन और स्पैन एनोटेशन मार्गदर्शिका देखें। कार्यान्वयन विवरण के लिए, एरर स्पैन स्रोत दस्तावेज़ देखें।