Computer-Use और मल्टीमॉडल एजेंटों का मूल्यांकन
computer-use और GUI एजेंटों का, साथ ही voice, video, और document एजेंटों का मानव-मूल्यांकन कैसे करें, प्रत्येक क्रिया और क्लिक को आँकना, टर्न-टेकिंग को स्कोर करना, और घटनाओं को समय में grounding करना।
एक computer-use एजेंट किसी ग्राफ़िकल इंटरफ़ेस को उसी तरह नियंत्रित करता है जैसे एक व्यक्ति करता है: यह एक स्क्रीनशॉट पढ़ता है, एक क्रिया (click, type, scroll) तय करता है, और कार्य करता है। ऐसे एजेंट का मूल्यांकन करने का मतलब है, चरण दर चरण, यह जाँचना कि क्या प्रत्येक क्रिया सही थी और क्या क्लिक वास्तव में इच्छित तत्व पर पड़ा, न कि केवल यह कि कार्य अंततः सफल हुआ या नहीं। Potato computer-use, GUI, voice, video, और document एजेंटों के मानव मूल्यांकन के लिए एक ओपन-सोर्स टूल है, जिसमें प्रत्येक मोडैलिटी के लिए विशेष रूप से बनाई गई एनोटेशन सतहें हैं।
एक computer-use एजेंट (जिसे GUI या OS एजेंट भी कहा जाता है) स्क्रीन को पिक्सेल या DOM के रूप में देखता है और उन्हीं नियंत्रणों के माध्यम से कार्य करता है जो एक उपयोगकर्ता के पास हैं। OSWorld, ScreenSpot, और AndroidWorld जैसे बेंचमार्क कार्य सफलता को स्वचालित रूप से स्कोर करते हैं; मानव समीक्षा वह जोड़ती है जो स्वचालन छोड़ देता है, वह क्रिया जिसने भाग्य से सही परिणाम दिया, या वह क्लिक जो गलत बटन पर पड़ा लेकिन फिर भी कार्य को आगे बढ़ाया।
आप एक computer-use ट्रेजेक्टरी में क्या आँकते हैं?
प्रत्येक चरण एक स्क्रीनशॉट (जो एजेंट ने देखा) को एक क्रिया (जो उसने की) के साथ जोड़ता है। एनोटेटर क्रिया को आँकता है और, जब चरण में क्लिक निर्देशांक होते हैं, तो स्क्रीनशॉट पर grounding मार्कर की जाँच करता है:
- क्रिया शुद्धता: correct, wrong element, wrong action, या hallucinated।
- click grounding: क्या निर्देशांक उस तत्व पर पड़े जिसका क्रिया ने नाम लिया?
- परिणाम: क्या रन ने कार्य पूरा किया, और यह पहली बार किस चरण पर गलत हुआ?
annotation_schemes:
- annotation_type: gui_trajectory
name: gui_review
description: "For each step: was the action correct and did the click land right?"
steps_key: steps
screenshot_key: screenshot
action_key: action
coord_space: normalized
verdict_options: [correct, wrong_element, wrong_action, hallucinated]पहले गलत चरण को पकड़ना एकल pass/fail से अधिक मायने रखता है, क्योंकि वही चरण है जिसे आप ठीक करेंगे या जिसके विरुद्ध प्रशिक्षण देंगे; प्रोसेस रिवॉर्ड मॉडल देखें।
मैं एक voice एजेंट की टर्न-टेकिंग का मूल्यांकन कैसे करूँ?
बोलने वाले एजेंट टर्न के बीच की सीमाओं पर विफल होते हैं: उपयोगकर्ता को बीच में काटना, उन पर बोलना, या बहुत देर तक रुकना। voice_interaction स्कीमा बातचीत को एक दोहरी-ट्रैक टाइमलाइन के रूप में बिछाती है और उन ओवरलैप क्षेत्रों को हाइलाइट करती है जहाँ दोनों वक्ता एक साथ बोलते हैं, जिसे एनोटेटर वर्गीकृत करता है (एजेंट को प्रतिक्रिया देनी चाहिए, फिर से शुरू करना चाहिए, यह एक backchannel था, या यह अस्पष्ट है) और फिर समग्र टर्न-टेकिंग को रेट करता है। यह full-duplex दृश्य है जिसे एक सपाट ट्रांसक्रिप्ट व्यक्त नहीं कर सकता।
मैं video और document एजेंटों को कैसे स्कोर करूँ?
- Video temporal grounding: प्रत्येक घटना प्रॉम्प्ट के लिए, गोल्ड
[start, end]अंतराल चिह्नित करें; जब डेटा में किसी मॉडल का पूर्वानुमानित अंतराल शामिल होता है, तो समायोजित करते ही एक लाइव IoU अपडेट होता है, इसलिए आप स्थानीयकरण को सीधे स्कोर करते हैं। - Speech ट्रांसक्रिप्ट: ASR/TTS त्रुटियों को सेगमेंट दर सेगमेंट टैग करें और टेक्स्ट को इनलाइन सही करें।
- Document टेबल: उस सेल संरचना को चिह्नित करें (column headers, row headers, data, empty) जिसे बाउंडिंग बॉक्स पकड़ नहीं सकते।
- इंटरलीव्ड तर्क: एक text-image-tool ट्रेस के प्रत्येक चरण को सुसंगतता के लिए रेट करें और दृश्य hallucinations को फ़्लैग करें।
प्रत्येक मल्टीमॉडल-एजेंट संदर्भ में एक अलग स्कीमा है, और कई एक ही कार्य पर चल सकती हैं।
मुझे कौन सी स्कीमा का उपयोग करना चाहिए?
| एजेंट प्रकार | स्कीमा | आप क्या लेबल करते हैं |
|---|---|---|
| Computer-use / GUI | gui_trajectory | क्रिया शुद्धता + click grounding |
| Voice / बोली जाने वाली | voice_interaction | Barge-in हैंडलिंग और टर्न-टेकिंग |
| Video | temporal_grounding | गोल्ड घटना अंतराल बनाम पूर्वानुमान (IoU) |
| Speech ट्रांसक्रिप्ट | speech_transcript | प्रति सेगमेंट ASR/TTS त्रुटियाँ |
| Document / टेबल | table_grid | सेल-संरचना भूमिकाएँ |
| मल्टीमॉडल तर्क | multimodal_reasoning | चरण सुसंगतता और दृश्य hallucination |
आगे पढ़ें
- मल्टीमॉडल-एजेंट मूल्यांकन — पूर्ण स्कीमा संदर्भ
- वेब-एजेंट मूल्यांकन — स्क्रीनशॉट-और-क्रिया वेब एजेंट
- AI एजेंटों का मूल्यांकन कैसे करें — एजेंट मूल्यांकन के स्तर
- मल्टी-एजेंट सिस्टम का मूल्यांकन कैसे करें