स्पैन एनोटेशन के साथ हैल्यूसिनेशन ढूँढना
Potato में स्पैन एनोटेशन के साथ ठीक-ठीक शब्दों को हाइलाइट करके और यह लेबल करके कि क्या गलत है, MQM-शैली में मॉडल हैल्यूसिनेशन और तथ्यात्मक त्रुटियाँ पकड़ें।
जब कोई मॉडल कुछ गढ़ देता है, तो पूरे उत्तर पर एक थम्ब्स-डाउन आपको लगभग कुछ नहीं बताता। आप जानते हैं कि कहीं कुछ गलत है। आप नहीं जानते कि कौन सा वाक्य, किस तरह की त्रुटि, या वह कितनी बुरी है। स्पैन एनोटेशन इसे ठीक करता है: एनोटेटर ठीक-ठीक शब्दों को हाइलाइट करता है और लेबल करता है कि उनमें क्या गलत है।
यह वही विचार है जो MQM के पीछे है, वह त्रुटि-स्पैन ढाँचा जिसका उपयोग मशीन-अनुवाद मूल्यांकन वर्षों से करता आ रहा है। स्पैन चिह्नित करें, त्रुटि को वर्गीकृत करें, गंभीरता को रेट करें। परिणाम ऐसा डेटा होता है जिस पर आप वास्तव में कार्रवाई कर सकते हैं।
स्पैन पूरे-उत्तर वाले फ़्लैग से बेहतर क्यों हैं
पूरे-उत्तर वाला "अनिष्ठ" (unfaithful) लेबल एक सारांश आँकड़ा है। एक स्पैन एक स्थान और एक निदान है। स्पैन के साथ आप प्रति प्रकार त्रुटि दरें माप सकते हैं, कई आउटपुट में पैटर्न पहचान सकते हैं, और जिस विफलता-तरीके की आप परवाह करते हैं उसके लिए लक्षित ट्रेनिंग डेटा बना सकते हैं। जब निर्णय की इकाई पूरी प्रतिक्रिया हो तो इनमें से कुछ भी संभव नहीं है।
Potato में इसे सेट करना
समस्याग्रस्त टेक्स्ट को हाइलाइट करें, त्रुटि के प्रकार को लेबल करें, और एक गंभीरता निर्णय जोड़ें ताकि एक मामूली चूक और एक खतरनाक गढ़ंत को समान भार न मिले।
annotation_schemes:
- annotation_type: span
name: errors
description: "Highlight each problematic span and label the error type."
labels: [unsupported_claim, factual_error, contradiction, fabricated_citation]
label_colors:
unsupported_claim: "#f59e0b"
factual_error: "#ef4444"
contradiction: "#8b5cf6"
fabricated_citation: "#ec4899"
- annotation_type: radio
name: severity
description: "How serious is the worst error?"
labels: [Minor, Major, Critical]वे नियम जो आपके डेटा की गुणवत्ता तय करते हैं
एनोटेटर को स्रोत सामग्री दें। "असमर्थित" इसके बिना अपरिभाषेय है, इसलिए दस्तावेज़ या संदर्भ स्क्रीन पर होने चाहिए, किसी टैब के पीछे नहीं।
अपना सीमा-नियम एक बार तय करें। क्या स्पैन पूरे वाक्य को कवर करता है या सिर्फ़ गलत उपवाक्य को? दोनों बचाव योग्य हैं; एक चुनें और उसे लिख लें।
किनारों पर व्यक्तिपरकता की अपेक्षा करें। निष्ठा के निर्णय सीमावर्ती मामलों पर अलग-अलग हो जाते हैं, इसलिए एक नमूने पर ओवरलैप एकत्र करें और संख्याओं पर भरोसा करने से पहले सहमति जाँचें।
आगे कहाँ जाएँ
पूरा विवरण, जिसमें यह शामिल है कि प्रत्येक त्रुटि प्रकार को कैसे परिभाषित किया जाए, हैल्यूसिनेशन का पता लगाना मार्गदर्शिका में है। इस समस्या के रिट्रीवल-आधारित संस्करण के लिए, RAG मूल्यांकन और स्पैन एनोटेशन मार्गदर्शिका देखें। कार्यान्वयन विवरण के लिए, एरर स्पैन स्रोत दस्तावेज़ देखें।