Potato 2.6 ने एजेंट मूल्यांकन की पहली लहर लाई: LLM-as-judge कैलिब्रेशन, प्रशिक्षण डेटा के लिए ट्रैजेक्टरी एडिटिंग, और तीन-पैन वाला eval_trace डिस्प्ले। तब से जारी 2.6.x पॉइंट रिलीज़ बाकी हिस्से को भर देती हैं। 2.6.2 के साथ, Potato एक संपूर्ण एजेंट-मूल्यांकन प्लेटफ़ॉर्म है: आप अपने स्वयं के एजेंट से ट्रेस कैप्चर कर सकते हैं, एकल एजेंट, मल्टी-एजेंट टीम, और मल्टीमोडल एजेंट को एनोटेट कर सकते हैं, उन्हें ऐसे LLM से आँक सकते हैं जिन पर आप भरोसा कर सकें, एक एरिना में मॉडल को रैंक कर सकते हैं, और CI में रिलीज़ को गेट कर सकते हैं। यह सब कुछ YAML में कॉन्फ़िगर किया जाता है और आपके अपने सर्वर पर रहता है।

एक क्लिक करने योग्य एजेंट-इंटरैक्शन ग्राफ़, जो Potato के मल्टी-एजेंट मूल्यांकन की प्रमुख विशेषता है Potato मल्टी-एजेंट मूल्यांकन

इनमें से अधिकांश ऐसी क्षमताएँ हैं जिनके लिए लोग वर्तमान में किसी होस्टेड प्लेटफ़ॉर्म को भुगतान करते हैं। Potato इन्हें मुफ़्त और सेल्फ़-होस्टेड तरीके से करता है। यहाँ बताया गया है कि 2.6.x शृंखला में क्या-क्या आया।

Potato एजेंट-मूल्यांकन सूट का एक मानचित्र: इंजेस्ट, एनोटेट, जज, ऑपरेट 2.6.x एजेंट-मूल्यांकन सूट, शुरू से अंत तक

ट्रेस अंदर लाएँ: एक कैप्चर SDK और खुले मानक

मूल्यांकन वास्तविक रन से शुरू होता है। नया potato_trace SDK किसी भी एजेंट को इंस्ट्रूमेंट करता है: किसी फ़ंक्शन को @traceable से डेकोरेट करें (सिंक या async) और नेस्टेड कॉल कैप्चर होकर Potato के इंजेशन एंडपॉइंट पर भेज दिए जाते हैं, साथ ही एक वैकल्पिक OpenTelemetry एक्सपोर्ट के साथ। Potato OpenTelemetry / OpenInference स्पैन और LangGraph, CrewAI, और AutoGen रन फ़ॉर्मेट भी इंजेस्ट करता है, इसलिए आप पहले से जिस फ़्रेमवर्क का उपयोग करते हैं, उससे आने वाले ट्रेस बिना किसी ग्लू कोड के एनोटेशन कतार में पहुँच जाते हैं। नए ट्रेस एक वेबहुक, एक पोलर, या एक देखी जा रही डायरेक्टरी के माध्यम से आ सकते हैं और आते ही एनोटेटर को असाइन किए जा सकते हैं।

संदर्भ: ट्रेसिंग SDK, ऑटोमेशन नियम।

पूरी टीम देखें: मल्टी-एजेंट मूल्यांकन

यह वह हिस्सा है जिसका कोई ओपन-सोर्स समकक्ष नहीं है। एक मल्टी-एजेंट रन एकल एजेंट से अलग तरीके से विफल होता है, एजेंटों के बीच, किसी हैंडऑफ़ पर, या इस बात में कि टीम कैसे संगठित की गई थी, इसलिए Potato एक सपाट ट्रांसक्रिप्ट के बजाय टीम की संरचना को एनोटेट करता है:

एजेंटों और हैंडऑफ़ का एक क्लिक करने योग्य इंटरैक्शन ग्राफ़, जहाँ आप क्रिटिकल पाथ को चिह्नित करते हैं और समस्याग्रस्त एज को फ़्लैग करते हैं।
विफलता एट्रिब्यूशन: ज़िम्मेदार एजेंट, निर्णायक चरण, और कारण चुनें, यानी Who&When एट्रिब्यूशन कार्य से लिया गया (एजेंट, चरण, कारण) त्रिक।
हैंडऑफ़ समीक्षा: हर नियंत्रण हस्तांतरण एक कार्ड बन जाता है ताकि एजेंटों के बीच असंरेखण को फ़्लैग किया जा सके और गुणवत्ता का मूल्यांकन किया जा सके।
प्रति-एजेंट और प्रति-टीम स्कोरकार्ड: प्रति एजेंट भूमिका निष्ठा, योगदान, और समन्वय, साथ ही साझा टीम आयाम और मील के पत्थर।
एक टूल-कंटेंशन टाइमलाइन जो उन डेडलॉक और रेस को सामने लाती है जहाँ एजेंट एक ही संसाधन को एक साथ छूते हैं।
कई एजेंटों और टर्न में फैलने वाली मिलीभगत, ग्रुपथिंक, और कैस्केडिंग त्रुटियों के लिए उभरते-व्यवहार टैगिंग।

एक मल्टी-एजेंट विफलता को एक ज़िम्मेदार एजेंट, एक निर्णायक चरण, और एक कारण के लिए एट्रिब्यूट करना विफलता एट्रिब्यूशन: कौन-सा एजेंट, कौन-सा चरण, और क्यों

प्रत्येक के लिए YAML के साथ पूरा सेट मल्टी-एजेंट टीम मूल्यांकन में है, और गहन विश्लेषण मल्टी-एजेंट विफलताओं की डिबगिंग हर सतह को शुरू से अंत तक समझाता है। मार्गदर्शिका मल्टी-एजेंट सिस्टम का मूल्यांकन कैसे करें बताती है कि कब किसका उपयोग करें।

टेक्स्ट से आगे: मल्टीमोडल-एजेंट मूल्यांकन

एजेंट अब GUI चलाते हैं, वीडियो देखते हैं, और बोली जाने वाली बातचीत करते हैं, और प्रत्येक को एक ऐसी समीक्षा सतह की आवश्यकता है जो एक टेक्स्ट विजेट प्रदान नहीं कर सकता:

GUI / कंप्यूटर-उपयोग ट्रैजेक्टरी: प्रति-चरण स्क्रीनशॉट और क्रिया, एक क्रिया फ़ैसला, और एक क्लिक-ग्राउंडिंग मार्कर जो दिखाता है कि क्लिक सही एलिमेंट पर पहुँचा या नहीं।
फ़ुल-डुप्लेक्स वॉइस टाइमलाइन: बार्ज-इन डिटेक्शन और टर्न-टेकिंग स्कोरिंग के साथ एक डुअल-ट्रैक यूज़र/एजेंट टाइमलाइन।
वीडियो टेम्पोरल ग्राउंडिंग: मॉडल के पूर्वानुमानित अंतराल के विरुद्ध एक लाइव IoU के साथ गोल्ड इवेंट अंतराल चिह्नित करें।
स्पीच-ट्रांसक्रिप्ट त्रुटि टैगिंग, विज़ुअल-हैल्युसिनेशन फ़्लैग के साथ इंटरलीव्ड मल्टीमोडल रीज़निंग, और डॉक्यूमेंट टेबल-ग्रिड संरचना।

एक क्रिया फ़ैसले और स्क्रीनशॉट पर एक क्लिक-ग्राउंडिंग मार्कर के साथ एक कंप्यूटर-उपयोग चरण कंप्यूटर-उपयोग समीक्षा: क्रिया की शुद्धता और क्लिक ग्राउंडिंग

दो गहन विश्लेषण इन्हें समझाते हैं: GUI और OS एजेंटों के लिए कंप्यूटर-उपयोग एजेंटों का मूल्यांकन, और बोली जाने वाली, वीडियो, और डॉक्यूमेंट एजेंटों के लिए वॉइस और वीडियो एजेंटों का मूल्यांकन। संदर्भ मल्टीमोडल-एजेंट मूल्यांकन है, और मार्गदर्शिका कंप्यूटर-उपयोग और मल्टीमोडल एजेंटों का मूल्यांकन है।

ऐसे जज जिन पर आप भरोसा कर सकें, और एक एरिना

आउटपुट को ग्रेड करने के लिए किसी LLM का उपयोग करना सामान्य बात है; 2.6.x का काम यह जानने के बारे में है कि उस पर कितना भरोसा किया जाए। जज कैलिब्रेशन मॉडल लेबल के विरुद्ध एक ब्लाइंड ह्यूमन पास चलाता है और सटीकता, कप्पा, और Expected Calibration Error की रिपोर्ट करता है। जज अलाइनमेंट आपके गोल्ड लेबल के विरुद्ध एक एकल जज को ट्यून करता है। और प्रोग्रामेटिक इवैल्युएटर बिना किसी सर्वर के चलते हुए ट्रैजेक्टरी और टेक्स्ट को स्वचालित रूप से स्कोर करते हैं (ट्रैजेक्टरी मैच, टूल-उपयोग शुद्धता, संदर्भ-मुक्त LLM-as-judge, और ह्यूरिस्टिक्स)।

आमने-सामने की तुलना के लिए, मॉडल एरिना एक प्रॉम्प्ट को कई मॉडलों को भेजता है, प्राथमिकताएँ इकट्ठा करता है, और OpenAI, Anthropic, Gemini, Ollama, और vLLM में एक विन-रेट लीडरबोर्ड बनाता है।

मूल्यांकन को सॉफ़्टवेयर की तरह मानें

ऑपरेशनल हिस्से मूल्यांकन को दोहराने योग्य बनाते हैं:

डेटासेट और प्रयोग: वर्शन किए गए eval सेट, स्प्लिट, और रिग्रेशन डेल्टा के साथ साथ-साथ प्रयोग तुलना।
CI मूल्यांकन: एक pytest प्लगइन जो तब बिल्ड को विफल कर देता है जब कोई प्रॉम्प्ट या मॉडल परिवर्तन एजेंट गुणवत्ता को किसी सीमा से अधिक गिरा देता है।
ऑटोमेशन नियम: आने वाले प्रोडक्शन ट्रेस को नियम के अनुसार डेटासेट, इवैल्युएटर, या एनोटेशन कतार में रूट करें।
सिमेंटिक क्यूरेशन: "इस विफलता जैसे ट्रेस खोजें" के लिए एक एम्बेडिंग इंडेक्स और सहेजे गए डायनामिक स्लाइस।

इसे प्राप्त करना

bash

pip install --upgrade potato-annotation

प्रत्येक नई सतह examples/agent-traces/ के अंतर्गत एक चलाने योग्य उदाहरण के साथ आती है, जिसमें interaction-graph/, failure-attribution/, gui-trajectory/, और temporal-grounding/ शामिल हैं। स्कीमा को चलते हुए देखने के लिए Potato को किसी एक की ओर इंगित करें:

bash

python potato/flask_server.py start examples/agent-traces/interaction-graph/config.yaml -p 8000

यदि आप टूल का मूल्यांकन कर रहे हैं, तो Potato बनाम LangSmith और Langfuse में दी गई तुलना और मार्गदर्शिका ओपन-सोर्स एनोटेशन टूल की तुलना बताती है कि प्रत्येक कहाँ फ़िट बैठता है। हमें किन ट्रेस फ़ॉर्मेट का समर्थन करना चाहिए और प्रश्नों का GitHub रिपॉज़िटरी पर स्वागत है।