Question 1

Puis-je évaluer les traces d'agents de codage tels que Claude Code, Cursor ou SWE-Agent ?

Accepted Answer

Oui. Potato dispose de convertisseurs de traces natifs pour Claude Code, OpenCode, Cursor, Aider et SWE-Agent. Les appels d'outils sont rendus avec une interface dédiée : vue de diff unifié rouge/vert pour Edit/Write, blocs de terminal monospace foncé pour Bash, code numéroté ligne par ligne pour Read/Grep, et une barre latérale d'arborescence de fichiers regroupant tous les fichiers modifiés par opération. Les sorties longues se replient automatiquement.

Question 2

Puis-je évaluer des agents qui naviguent sur le web ?

Accepted Answer

Oui. Potato inclut un affichage Web Agent avec des superpositions SVG pour les marqueurs de clic, les boîtes englobantes, les trajectoires de la souris et les indicateurs de défilement. Deux modes : Review Mode pour la navigation en pellicule à travers des captures préenregistrées, et Creation Mode pour la navigation web en direct basée sur iframe avec enregistrement automatique des interactions. Des convertisseurs de traces sont fournis pour les formats WebArena, Mind2Web et Anthropic Computer Use.

Question 3

Puis-je évaluer des systèmes multi-agents comprenant plusieurs agents coopérants ?

Accepted Answer

Oui. Potato affiche une exécution multi-agents sous forme de graphe d'interaction cliquable des agents et des passations, et ajoute des schémas pour attribuer un échec à l'agent et à l'étape responsables, examiner chaque passation à la recherche de désalignements entre agents, noter chaque agent et l'équipe, et marquer la contention des outils et les comportements émergents entre agents. Voir la documentation d'évaluation d'équipes multi-agents.

Question 4

Puis-je évaluer des agents d'usage informatique, vocaux ou vidéo ?

Accepted Answer

Oui. Potato dispose de schémas conçus sur mesure pour les agents multimodaux : trajectoires GUI/usage informatique avec captures d'écran par étape et ancrage du clic, chronologies vocales en duplex intégral avec détection des interruptions, ancrage temporel vidéo avec un IoU en direct par rapport à la prédiction du modèle, marquage d'erreurs sur transcription de parole alignée, raisonnement multimodal entrelacé et structure de grille de tableau documentaire. Voir la documentation d'évaluation des agents multimodaux.

Question 5

Les annotateurs peuvent-ils observer un agent IA naviguer sur le web en temps réel ?

Accepted Answer

Oui. Le mode Live Agent connecte un modèle LLM de vision (Anthropic Claude via Playwright) à un navigateur headless. L'agent prend des captures d'écran, le LLM planifie les actions, et Potato diffuse la session à l'annotateur via Server-Sent Events. Les annotateurs peuvent mettre en pause, envoyer des instructions ou reprendre le contrôle manuel en cours de session. Configuration via le type d'affichage `live_agent`.

Question 6

Puis-je revenir en arrière, dériver ou rejouer une session d'agent pendant l'évaluation ?

Accepted Answer

Oui. Le mode agent de codage prend en charge checkpoint/rollback à n'importe quelle étape et le branchement/replay pour explorer des trajectoires alternatives. Utile pour l'évaluation contrefactuelle, la comparaison A/B entre les décisions d'agents, et la capture de données d'entraînement de haute qualité où les annotateurs affinent itérativement une exécution d'agent.

Question 7

Puis-je annoter des erreurs au niveau de chaque étape d'une trajectoire d'agent ?

Accepted Answer

Oui. Le schéma trajectory_eval (basé sur TRAIL et AgentRewardBench) affiche chaque étape sous forme de carte. Les annotateurs marquent l'exactitude, classifient les types d'erreur depuis une taxonomie configurable avec sous-types (raisonnement, exécution, sûreté, etc.), attribuent une sévérité avec scores pondérés et rédigent des justifications par étape. Un score de qualité calculé automatiquement agrège les pénalités de sévérité sur toute la trajectoire.

Question 8

Puis-je collecter des données d'entraînement de Process Reward Model (PRM) et de revue de code ?

Accepted Answer

Oui. Potato fournit les schémas de récompense de processus et de revue de code pour l'évaluation au niveau étape des agents de codage. Les deux types d'annotation s'exportent directement aux formats PRM et DPO pour l'entraînement RLHF en aval. Voir le projet d'exemple coding-agent-evaluation.

Question 9

Les annotateurs peuvent-ils demander de l'aide à un LLM en évaluant un agent ?

Accepted Answer

Oui. Le LLM Chat Sidebar est un panneau d'assistant IA repliable avec conversation multi-tours. Il reçoit la description de la tâche, l'ensemble des étiquettes et le texte de l'instance courante en contexte. Support multi-tours natif pour OpenAI, Anthropic et Ollama. Toutes les conversations sont enregistrées comme données comportementales pour l'analyse ultérieure de la collaboration annotateur-LLM.

Question 10

Can I use Potato with agents built on LangChain?

Accepted Answer

Yes. Potato converts LangChain/LangSmith traces automatically.

Question 11

Puis-je capturer des traces d'agents automatiquement depuis mon application LangChain ?

Accepted Answer

Oui. Installez `pip install potato-annotation[langchain]` et attachez `PotatoCallbackHandler` à votre chaîne. Il suit les exécutions parent-enfant des chaînes/LLM/outils et envoie des charges utiles compatibles LangSmith à Potato à la fin de la chaîne racine. Combiné avec le récepteur de webhook, vous pouvez ingérer des traces d'agents en direct dans les files d'annotation sans export manuel.

Question 12

Quels formats de traces d'agents Potato prend-il en charge nativement ?

Accepted Answer

Treize formats sur trois catégories. **Frameworks** : LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF. **Agents web** : WebArena, traces web brutes. **Agents de codage** : Claude Code, Aider, SWE-Agent. Plus une voie d'ingestion JSONL générique avec le schéma `structured_turns` pour tout format personnalisé. Voir /integrations pour la liste complète.

Question 13

Puis-je combiner plusieurs schémas d'évaluation dans une seule tâche d'annotation d'agent ?

Accepted Answer

Oui. Un projet d'agent de codage peut superposer trajectory_eval (erreurs par étape), annotation span (mettre en évidence les hallucinations dans le raisonnement de l'agent), comparaison pairwise (quel agent a fait mieux) et évaluations Likert (qualité globale) sur la même trace. L'architecture multi-schémas de Potato permet aux annotateurs de voir tous les schémas dans une seule interface pour la même trace.

Question 14

Do I need a GPU or API key for live agent evaluation?

Accepted Answer

No. The live agent supports Ollama for fully local inference with no API key.

Question 15

Can I evaluate multi-agent systems?

Accepted Answer

Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.

Question 16

What if my agent framework is not listed?

Accepted Answer

Use the generic ReAct converter or the webhook API to send traces in any JSON format.

Question 17

Can annotators interact with agents during evaluation?

Accepted Answer

Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.

Question 18

How do I export agent annotations for training?

Accepted Answer

Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.

Agent Evaluation

Agent Evaluation

Encore des questions ?