Question 1

Claude Code、Cursor、SWE-Agent などのコーディングエージェントのトレースを評価できますか?

Accepted Answer

はい。Potato は Claude Code、OpenCode、Cursor、Aider、SWE-Agent 用のトレースコンバーターを標準で備えています。ツール呼び出しは専用 UI で表示されます: Edit/Write は赤緑の統合 diff ビュー、Bash はダークなモノスペースのターミナルブロック、Read/Grep は行番号付きのコード表示、操作別にまとめられたファイルツリーのサイドバー。長い出力は自動的に折りたたまれます。

Question 2

Web ブラウジングを行うエージェントを評価できますか?

Accepted Answer

はい。Potato にはクリックマーカー、バウンディングボックス、マウス軌跡、スクロールインジケーター用の SVG オーバーレイを備えた Web Agent 表示があります。2 つのモードを提供しています: 録画済みスクリーンショットをフィルムストリップで操作する Review Mode と、iframe ベースのライブ Web ブラウジングで操作を自動記録する Creation Mode。WebArena、Mind2Web、Anthropic Computer Use 形式のトレースコンバーターが同梱されています。

Question 3

複数の協力するエージェントから成るマルチエージェントシステムを評価できますか？

Accepted Answer

はい。Potatoはマルチエージェント実行を、エージェントとハンドオフのクリック可能な相互作用グラフとしてレンダリングします。さらに、失敗を責任を負うエージェントとステップに帰属させ、エージェント間の不整合についてすべてのハンドオフをレビューし、各エージェントとチームを採点し、エージェントをまたぐツール競合と創発的挙動をタグ付けするためのスキーマを追加します。マルチエージェントチーム評価のドキュメントを参照してください。

Question 4

コンピュータ操作・音声・動画のエージェントを評価できますか？

Accepted Answer

はい。Potatoはマルチモーダルエージェントのための専用設計されたスキーマを備えています。ステップごとのスクリーンショットとクリックグラウンディングを伴うGUI／コンピュータ操作軌跡、バージイン検出を備えた全二重音声タイムライン、モデルの予測に対するライブIoUを備えた動画時間グラウンディング、アラインメント済みの音声トランスクリプトのエラータグ付け、インターリーブされたマルチモーダル推論、そして文書の表グリッド構造です。マルチモーダルエージェント評価のドキュメントを参照してください。

Question 5

アノテーターは AI エージェントが Web を閲覧する様子をリアルタイムで観察できますか?

Accepted Answer

はい。Live Agent モードでは LLM のビジョンモデル (Playwright 経由の Anthropic Claude) をヘッドレスブラウザに接続します。エージェントがスクリーンショットを撮り、LLM がアクションを計画し、Potato がそのセッションを Server-Sent Events 経由でアノテーターにストリーミングします。アノテーターはセッションの途中で一時停止、指示の送信、手動制御の引き継ぎが可能です。`live_agent` ディスプレイタイプで設定します。

Question 6

評価中にエージェントセッションを巻き戻したり、分岐させたり、再生したりできますか?

Accepted Answer

はい。コーディングエージェントモードは任意のステップでのチェックポイント/ロールバックと、代替トラジェクトリを探索するための分岐/リプレイをサポートしています。反実仮想評価、エージェントの判断の A/B 比較、アノテーターが反復的にエージェントの実行を洗練させて高品質な学習データを取得するのに役立ちます。

Question 7

エージェントのトラジェクトリの各ステップ単位でエラーをアノテーションできますか?

Accepted Answer

はい。trajectory_eval スキーマ (TRAIL と AgentRewardBench に基づく) は各ステップをカードとして表示します。アノテーターは正解判定を行い、サブタイプ (推論、実行、安全性など) を持つ設定可能な分類体系からエラータイプを分類し、重み付きスコアで重要度を割り当て、ステップごとの理由を記述します。重要度ペナルティを集約した品質スコアが自動計算されます。

Question 8

プロセス報酬モデル (PRM) やコードレビューの学習データを収集できますか?

Accepted Answer

はい。Potato はコーディングエージェントのステップレベル評価のためのプロセス報酬スキーマとコードレビュースキーマを提供しています。どちらのアノテーションタイプも、下流の RLHF 学習のために PRM および DPO 形式に直接エクスポートされます。coding-agent-evaluation のサンプルプロジェクトを参照してください。

Question 9

アノテーターはエージェント評価中に LLM に支援を求められますか?

Accepted Answer

はい。LLM Chat Sidebar は折りたたみ可能な AI アシスタントパネルで、マルチターンの会話に対応しています。タスクの説明、ラベルセット、現在のインスタンスのテキストをコンテキストとして受け取ります。OpenAI、Anthropic、Ollama のマルチターン対応がネイティブで実装されています。すべての会話は行動データとしてログに記録され、後でアノテーターと LLM の協調を分析できます。

Question 10

Can I use Potato with agents built on LangChain?

Accepted Answer

Yes. Potato converts LangChain/LangSmith traces automatically.

Question 11

LangChain アプリケーションからエージェントトレースを自動的に取得できますか?

Accepted Answer

はい。`pip install potato-annotation[langchain]` をインストールして、`PotatoCallbackHandler` をチェーンにアタッチしてください。親子関係のチェーン/LLM/ツール実行を追跡し、ルートチェーン完了時に LangSmith 互換のペイロードを Potato に送信します。Webhook レシーバーと組み合わせれば、手動エクスポートなしでアノテーションキューにライブエージェントトレースを取り込めます。

Question 12

Potato は標準でどのエージェントトレース形式をサポートしていますか?

Accepted Answer

3 つのカテゴリーで 13 種類の形式に対応しています。**フレームワーク**: LangChain、LangFuse、OpenAI、Anthropic、MCP (Model Context Protocol)、OpenTelemetry、ATIF。**Web エージェント**: WebArena、生 Web トレース。**コーディングエージェント**: Claude Code、Aider、SWE-Agent。さらに任意のカスタム形式に対応できる `structured_turns` スキーマでの汎用 JSONL 取り込み経路も用意しています。全リストは /integrations を参照してください。

Question 13

単一のエージェントアノテーションタスクで複数の評価スキーマを組み合わせられますか?

Accepted Answer

はい。コーディングエージェントのプロジェクトでは、同じトレースに対して trajectory_eval (ステップごとのエラー)、span アノテーション (エージェントの推論内のハルシネーションをハイライト)、pairwise 比較 (どのエージェントの方が優れていたか)、likert 評価 (全体的な品質) を重ねて適用できます。Potato のマルチスキーマアーキテクチャにより、アノテーターは同じトレースに対してすべてのスキーマを 1 つのインターフェースで確認できます。

Question 14

Do I need a GPU or API key for live agent evaluation?

Accepted Answer

No. The live agent supports Ollama for fully local inference with no API key.

Question 15

Can I evaluate multi-agent systems?

Accepted Answer

Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.

Question 16

What if my agent framework is not listed?

Accepted Answer

Use the generic ReAct converter or the webhook API to send traces in any JSON format.

Question 17

Can annotators interact with agents during evaluation?

Accepted Answer

Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.

Question 18

How do I export agent annotations for training?

Accepted Answer

Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.

Agent Evaluation

Agent Evaluation

まだ疑問がありますか？