Skip to content

Agent Evaluation

Potato के बारे में सामान्य प्रश्नों के उत्तर खोजें। जो खोज रहे हैं वह नहीं मिला? हमारे Discord में शामिल हों या दस्तावेज़ीकरण देखें।

Agent Evaluation

हाँ। Potato में Claude Code, OpenCode, Cursor, Aider और SWE-Agent के लिए नेटिव trace कन्वर्टर्स हैं। tool calls को विशेष रूप से डिज़ाइन की गई UI में प्रस्तुत किया जाता है: Edit/Write के लिए लाल/हरे रंग का unified diff दृश्य, Bash के लिए डार्क मोनोस्पेस टर्मिनल ब्लॉक्स, Read/Grep के लिए लाइन-नंबर वाला कोड, और एक file tree साइडबार जो सभी बदले गए फ़ाइलों को ऑपरेशन के अनुसार समूहित करती है। लंबे आउटपुट स्वचालित रूप से कोलैप्स हो जाते हैं।

हाँ। Potato में एक Web Agent डिस्प्ले शामिल है जिसमें क्लिक मार्कर, bounding boxes, माउस paths और scroll indicators के लिए SVG overlays हैं। दो मोड हैं: Review Mode जो पहले से रिकॉर्ड किए गए स्क्रीनशॉट्स के बीच filmstrip नेविगेशन देता है, और Creation Mode जो iframe-आधारित live वेब ब्राउज़िंग के साथ इंटरैक्शन्स की स्वचालित रिकॉर्डिंग करता है। WebArena, Mind2Web और Anthropic Computer Use फ़ॉर्मेट्स के लिए trace कन्वर्टर्स साथ आते हैं।

हाँ। Live Agent मोड एक LLM विज़न मॉडल (Playwright के माध्यम से Anthropic Claude) को एक headless ब्राउज़र से जोड़ता है। एजेंट स्क्रीनशॉट लेता है, LLM कार्रवाइयों की योजना बनाता है, और Potato सेशन को Server-Sent Events के माध्यम से एनोटेटर तक स्ट्रीम करता है। एनोटेटर सेशन के बीच में pause कर सकते हैं, निर्देश भेज सकते हैं, या manual control अपने हाथ में ले सकते हैं। `live_agent` डिस्प्ले प्रकार के माध्यम से कॉन्फ़िगर करें।

हाँ। coding agent मोड किसी भी step पर checkpoint/rollback और वैकल्पिक trajectories देखने के लिए branching/replay का समर्थन करता है। यह counterfactual मूल्यांकन, एजेंट निर्णयों के बीच A/B तुलना और उच्च-गुणवत्ता वाले प्रशिक्षण डेटा के संग्रह के लिए उपयोगी है जहाँ एनोटेटर एजेंट के एक रन को धीरे-धीरे परिष्कृत करते हैं।

हाँ। trajectory_eval स्कीमा (TRAIL और AgentRewardBench पर आधारित) प्रत्येक step को एक कार्ड के रूप में दिखाता है। एनोटेटर correctness को चिह्नित करते हैं, उपप्रकारों (reasoning, execution, safety, आदि) के साथ कॉन्फ़िगर करने योग्य taxonomy से error types को वर्गीकृत करते हैं, weighted scores के साथ severity assign करते हैं, और प्रति-step rationales लिखते हैं। स्वचालित रूप से गणना किया गया quality score पूरे trajectory में severity penalties को aggregate करता है।

हाँ। Potato coding agents के step-level मूल्यांकन के लिए process reward और code review स्कीमा भेजता है। दोनों एनोटेशन प्रकार downstream RLHF प्रशिक्षण के लिए सीधे PRM और DPO फ़ॉर्मेट्स में निर्यात होते हैं। coding-agent-evaluation उदाहरण प्रोजेक्ट देखें।

हाँ। LLM Chat Sidebar एक collapsible AI assistant panel है जिसमें multi-turn बातचीत होती है। यह task विवरण, label set और current instance text को context के रूप में प्राप्त करता है। OpenAI, Anthropic और Ollama के लिए नेटिव multi-turn समर्थन। सभी बातचीतें बाद में एनोटेटर-LLM सहयोग के विश्लेषण के लिए behavioral data के रूप में लॉग की जाती हैं।

Yes. Potato converts LangChain/LangSmith traces automatically.

हाँ। `pip install potato-annotation[langchain]` इंस्टॉल करें और अपनी chain में `PotatoCallbackHandler` को attach करें। यह chain/LLM/tool runs के parent-child संबंधों को ट्रैक करता है और root chain के पूरा होने पर Potato को LangSmith-संगत payloads भेजता है। webhook receiver के साथ मिलकर, आप manual export के बिना annotation queues में live एजेंट traces ingest कर सकते हैं।

तीन श्रेणियों में तेरह फ़ॉर्मेट्स। **Frameworks**: LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF। **Web agents**: WebArena, raw web traces। **Coding agents**: Claude Code, Aider, SWE-Agent। साथ ही किसी भी कस्टम फ़ॉर्मेट के लिए `structured_turns` स्कीमा के साथ एक generic JSONL ingestion path। पूरी सूची /integrations पर देखें।

हाँ। एक coding-agent प्रोजेक्ट उसी trace पर trajectory_eval (per-step त्रुटियाँ), span एनोटेशन (एजेंट reasoning में hallucinations को highlight करना), pairwise तुलना (किस एजेंट ने बेहतर किया) और likert rating (overall quality) को layer कर सकता है। Potato की multi-schema architecture के कारण एनोटेटर एक ही trace के लिए सभी schemas को एक ही interface में देखते हैं।

No. The live agent supports Ollama for fully local inference with no API key.

Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.

Use the generic ReAct converter or the webhook API to send traces in any JSON format.

Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.

Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.

अभी भी प्रश्न हैं?

हमारा समुदाय मदद के लिए यहाँ है। रीयल-टाइम समर्थन के लिए Discord में शामिल हों या विस्तृत गाइड के लिए दस्तावेज़ीकरण देखें।