Skip to content

Computer-Use और मल्टीमॉडल एजेंटों का मूल्यांकन

computer-use और GUI एजेंटों का, साथ ही voice, video, और document एजेंटों का मानव-मूल्यांकन कैसे करें, प्रत्येक क्रिया और क्लिक को आँकना, टर्न-टेकिंग को स्कोर करना, और घटनाओं को समय में grounding करना।

एक computer-use एजेंट किसी ग्राफ़िकल इंटरफ़ेस को उसी तरह नियंत्रित करता है जैसे एक व्यक्ति करता है: यह एक स्क्रीनशॉट पढ़ता है, एक क्रिया (click, type, scroll) तय करता है, और कार्य करता है। ऐसे एजेंट का मूल्यांकन करने का मतलब है, चरण दर चरण, यह जाँचना कि क्या प्रत्येक क्रिया सही थी और क्या क्लिक वास्तव में इच्छित तत्व पर पड़ा, न कि केवल यह कि कार्य अंततः सफल हुआ या नहीं। Potato computer-use, GUI, voice, video, और document एजेंटों के मानव मूल्यांकन के लिए एक ओपन-सोर्स टूल है, जिसमें प्रत्येक मोडैलिटी के लिए विशेष रूप से बनाई गई एनोटेशन सतहें हैं।

एक computer-use एजेंट (जिसे GUI या OS एजेंट भी कहा जाता है) स्क्रीन को पिक्सेल या DOM के रूप में देखता है और उन्हीं नियंत्रणों के माध्यम से कार्य करता है जो एक उपयोगकर्ता के पास हैं। OSWorld, ScreenSpot, और AndroidWorld जैसे बेंचमार्क कार्य सफलता को स्वचालित रूप से स्कोर करते हैं; मानव समीक्षा वह जोड़ती है जो स्वचालन छोड़ देता है, वह क्रिया जिसने भाग्य से सही परिणाम दिया, या वह क्लिक जो गलत बटन पर पड़ा लेकिन फिर भी कार्य को आगे बढ़ाया।

आप एक computer-use ट्रेजेक्टरी में क्या आँकते हैं?

प्रत्येक चरण एक स्क्रीनशॉट (जो एजेंट ने देखा) को एक क्रिया (जो उसने की) के साथ जोड़ता है। एनोटेटर क्रिया को आँकता है और, जब चरण में क्लिक निर्देशांक होते हैं, तो स्क्रीनशॉट पर grounding मार्कर की जाँच करता है:

  • क्रिया शुद्धता: correct, wrong element, wrong action, या hallucinated।
  • click grounding: क्या निर्देशांक उस तत्व पर पड़े जिसका क्रिया ने नाम लिया?
  • परिणाम: क्या रन ने कार्य पूरा किया, और यह पहली बार किस चरण पर गलत हुआ?
yaml
annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

पहले गलत चरण को पकड़ना एकल pass/fail से अधिक मायने रखता है, क्योंकि वही चरण है जिसे आप ठीक करेंगे या जिसके विरुद्ध प्रशिक्षण देंगे; प्रोसेस रिवॉर्ड मॉडल देखें।

मैं एक voice एजेंट की टर्न-टेकिंग का मूल्यांकन कैसे करूँ?

बोलने वाले एजेंट टर्न के बीच की सीमाओं पर विफल होते हैं: उपयोगकर्ता को बीच में काटना, उन पर बोलना, या बहुत देर तक रुकना। voice_interaction स्कीमा बातचीत को एक दोहरी-ट्रैक टाइमलाइन के रूप में बिछाती है और उन ओवरलैप क्षेत्रों को हाइलाइट करती है जहाँ दोनों वक्ता एक साथ बोलते हैं, जिसे एनोटेटर वर्गीकृत करता है (एजेंट को प्रतिक्रिया देनी चाहिए, फिर से शुरू करना चाहिए, यह एक backchannel था, या यह अस्पष्ट है) और फिर समग्र टर्न-टेकिंग को रेट करता है। यह full-duplex दृश्य है जिसे एक सपाट ट्रांसक्रिप्ट व्यक्त नहीं कर सकता।

मैं video और document एजेंटों को कैसे स्कोर करूँ?

  • Video temporal grounding: प्रत्येक घटना प्रॉम्प्ट के लिए, गोल्ड [start, end] अंतराल चिह्नित करें; जब डेटा में किसी मॉडल का पूर्वानुमानित अंतराल शामिल होता है, तो समायोजित करते ही एक लाइव IoU अपडेट होता है, इसलिए आप स्थानीयकरण को सीधे स्कोर करते हैं।
  • Speech ट्रांसक्रिप्ट: ASR/TTS त्रुटियों को सेगमेंट दर सेगमेंट टैग करें और टेक्स्ट को इनलाइन सही करें।
  • Document टेबल: उस सेल संरचना को चिह्नित करें (column headers, row headers, data, empty) जिसे बाउंडिंग बॉक्स पकड़ नहीं सकते।
  • इंटरलीव्ड तर्क: एक text-image-tool ट्रेस के प्रत्येक चरण को सुसंगतता के लिए रेट करें और दृश्य hallucinations को फ़्लैग करें।

प्रत्येक मल्टीमॉडल-एजेंट संदर्भ में एक अलग स्कीमा है, और कई एक ही कार्य पर चल सकती हैं।

मुझे कौन सी स्कीमा का उपयोग करना चाहिए?

एजेंट प्रकारस्कीमाआप क्या लेबल करते हैं
Computer-use / GUIgui_trajectoryक्रिया शुद्धता + click grounding
Voice / बोली जाने वालीvoice_interactionBarge-in हैंडलिंग और टर्न-टेकिंग
Videotemporal_groundingगोल्ड घटना अंतराल बनाम पूर्वानुमान (IoU)
Speech ट्रांसक्रिप्टspeech_transcriptप्रति सेगमेंट ASR/TTS त्रुटियाँ
Document / टेबलtable_gridसेल-संरचना भूमिकाएँ
मल्टीमॉडल तर्कmultimodal_reasoningचरण सुसंगतता और दृश्य hallucination

आगे पढ़ें