Agent Evaluation
Trouvez les réponses aux questions courantes sur Potato. Vous ne trouvez pas ce que vous cherchez ? Rejoignez notre Discord ou consultez la documentation.
Agent Evaluation
Oui. Potato dispose de convertisseurs de traces natifs pour Claude Code, OpenCode, Cursor, Aider et SWE-Agent. Les appels d'outils sont rendus avec une interface dédiée : vue de diff unifié rouge/vert pour Edit/Write, blocs de terminal monospace foncé pour Bash, code numéroté ligne par ligne pour Read/Grep, et une barre latérale d'arborescence de fichiers regroupant tous les fichiers modifiés par opération. Les sorties longues se replient automatiquement.
Oui. Potato inclut un affichage Web Agent avec des superpositions SVG pour les marqueurs de clic, les boîtes englobantes, les trajectoires de la souris et les indicateurs de défilement. Deux modes : Review Mode pour la navigation en pellicule à travers des captures préenregistrées, et Creation Mode pour la navigation web en direct basée sur iframe avec enregistrement automatique des interactions. Des convertisseurs de traces sont fournis pour les formats WebArena, Mind2Web et Anthropic Computer Use.
Oui. Le mode Live Agent connecte un modèle LLM de vision (Anthropic Claude via Playwright) à un navigateur headless. L'agent prend des captures d'écran, le LLM planifie les actions, et Potato diffuse la session à l'annotateur via Server-Sent Events. Les annotateurs peuvent mettre en pause, envoyer des instructions ou reprendre le contrôle manuel en cours de session. Configuration via le type d'affichage `live_agent`.
Oui. Le mode agent de codage prend en charge checkpoint/rollback à n'importe quelle étape et le branchement/replay pour explorer des trajectoires alternatives. Utile pour l'évaluation contrefactuelle, la comparaison A/B entre les décisions d'agents, et la capture de données d'entraînement de haute qualité où les annotateurs affinent itérativement une exécution d'agent.
Oui. Le schéma trajectory_eval (basé sur TRAIL et AgentRewardBench) affiche chaque étape sous forme de carte. Les annotateurs marquent l'exactitude, classifient les types d'erreur depuis une taxonomie configurable avec sous-types (raisonnement, exécution, sûreté, etc.), attribuent une sévérité avec scores pondérés et rédigent des justifications par étape. Un score de qualité calculé automatiquement agrège les pénalités de sévérité sur toute la trajectoire.
Oui. Potato fournit les schémas de récompense de processus et de revue de code pour l'évaluation au niveau étape des agents de codage. Les deux types d'annotation s'exportent directement aux formats PRM et DPO pour l'entraînement RLHF en aval. Voir le projet d'exemple coding-agent-evaluation.
Oui. Le LLM Chat Sidebar est un panneau d'assistant IA repliable avec conversation multi-tours. Il reçoit la description de la tâche, l'ensemble des étiquettes et le texte de l'instance courante en contexte. Support multi-tours natif pour OpenAI, Anthropic et Ollama. Toutes les conversations sont enregistrées comme données comportementales pour l'analyse ultérieure de la collaboration annotateur-LLM.
Yes. Potato converts LangChain/LangSmith traces automatically.
Oui. Installez `pip install potato-annotation[langchain]` et attachez `PotatoCallbackHandler` à votre chaîne. Il suit les exécutions parent-enfant des chaînes/LLM/outils et envoie des charges utiles compatibles LangSmith à Potato à la fin de la chaîne racine. Combiné avec le récepteur de webhook, vous pouvez ingérer des traces d'agents en direct dans les files d'annotation sans export manuel.
Treize formats sur trois catégories. **Frameworks** : LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF. **Agents web** : WebArena, traces web brutes. **Agents de codage** : Claude Code, Aider, SWE-Agent. Plus une voie d'ingestion JSONL générique avec le schéma `structured_turns` pour tout format personnalisé. Voir /integrations pour la liste complète.
Oui. Un projet d'agent de codage peut superposer trajectory_eval (erreurs par étape), annotation span (mettre en évidence les hallucinations dans le raisonnement de l'agent), comparaison pairwise (quel agent a fait mieux) et évaluations Likert (qualité globale) sur la même trace. L'architecture multi-schémas de Potato permet aux annotateurs de voir tous les schémas dans une seule interface pour la même trace.
No. The live agent supports Ollama for fully local inference with no API key.
Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.
Use the generic ReAct converter or the webhook API to send traces in any JSON format.
Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.
Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.
Encore des questions ?
Notre communauté est là pour vous aider. Rejoignez Discord pour une assistance en temps réel ou consultez la documentation pour des guides détaillés.