Agent Evaluation
Potatoに関するよくある質問への回答をご覧いただけます。お探しの内容が見つからない場合は、Discordに参加するか、ドキュメントをご確認ください。
Agent Evaluation
はい。Potato は Claude Code、OpenCode、Cursor、Aider、SWE-Agent 用のトレースコンバーターを標準で備えています。ツール呼び出しは専用 UI で表示されます: Edit/Write は赤緑の統合 diff ビュー、Bash はダークなモノスペースのターミナルブロック、Read/Grep は行番号付きのコード表示、操作別にまとめられたファイルツリーのサイドバー。長い出力は自動的に折りたたまれます。
はい。Potato にはクリックマーカー、バウンディングボックス、マウス軌跡、スクロールインジケーター用の SVG オーバーレイを備えた Web Agent 表示があります。2 つのモードを提供しています: 録画済みスクリーンショットをフィルムストリップで操作する Review Mode と、iframe ベースのライブ Web ブラウジングで操作を自動記録する Creation Mode。WebArena、Mind2Web、Anthropic Computer Use 形式のトレースコンバーターが同梱されています。
はい。Live Agent モードでは LLM のビジョンモデル (Playwright 経由の Anthropic Claude) をヘッドレスブラウザに接続します。エージェントがスクリーンショットを撮り、LLM がアクションを計画し、Potato がそのセッションを Server-Sent Events 経由でアノテーターにストリーミングします。アノテーターはセッションの途中で一時停止、指示の送信、手動制御の引き継ぎが可能です。`live_agent` ディスプレイタイプで設定します。
はい。コーディングエージェントモードは任意のステップでのチェックポイント/ロールバックと、代替トラジェクトリを探索するための分岐/リプレイをサポートしています。反実仮想評価、エージェントの判断の A/B 比較、アノテーターが反復的にエージェントの実行を洗練させて高品質な学習データを取得するのに役立ちます。
はい。trajectory_eval スキーマ (TRAIL と AgentRewardBench に基づく) は各ステップをカードとして表示します。アノテーターは正解判定を行い、サブタイプ (推論、実行、安全性など) を持つ設定可能な分類体系からエラータイプを分類し、重み付きスコアで重要度を割り当て、ステップごとの理由を記述します。重要度ペナルティを集約した品質スコアが自動計算されます。
はい。Potato はコーディングエージェントのステップレベル評価のためのプロセス報酬スキーマとコードレビュースキーマを提供しています。どちらのアノテーションタイプも、下流の RLHF 学習のために PRM および DPO 形式に直接エクスポートされます。coding-agent-evaluation のサンプルプロジェクトを参照してください。
はい。LLM Chat Sidebar は折りたたみ可能な AI アシスタントパネルで、マルチターンの会話に対応しています。タスクの説明、ラベルセット、現在のインスタンスのテキストをコンテキストとして受け取ります。OpenAI、Anthropic、Ollama のマルチターン対応がネイティブで実装されています。すべての会話は行動データとしてログに記録され、後でアノテーターと LLM の協調を分析できます。
Yes. Potato converts LangChain/LangSmith traces automatically.
はい。`pip install potato-annotation[langchain]` をインストールして、`PotatoCallbackHandler` をチェーンにアタッチしてください。親子関係のチェーン/LLM/ツール実行を追跡し、ルートチェーン完了時に LangSmith 互換のペイロードを Potato に送信します。Webhook レシーバーと組み合わせれば、手動エクスポートなしでアノテーションキューにライブエージェントトレースを取り込めます。
3 つのカテゴリーで 13 種類の形式に対応しています。**フレームワーク**: LangChain、LangFuse、OpenAI、Anthropic、MCP (Model Context Protocol)、OpenTelemetry、ATIF。**Web エージェント**: WebArena、生 Web トレース。**コーディングエージェント**: Claude Code、Aider、SWE-Agent。さらに任意のカスタム形式に対応できる `structured_turns` スキーマでの汎用 JSONL 取り込み経路も用意しています。全リストは /integrations を参照してください。
はい。コーディングエージェントのプロジェクトでは、同じトレースに対して trajectory_eval (ステップごとのエラー)、span アノテーション (エージェントの推論内のハルシネーションをハイライト)、pairwise 比較 (どのエージェントの方が優れていたか)、likert 評価 (全体的な品質) を重ねて適用できます。Potato のマルチスキーマアーキテクチャにより、アノテーターは同じトレースに対してすべてのスキーマを 1 つのインターフェースで確認できます。
No. The live agent supports Ollama for fully local inference with no API key.
Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.
Use the generic ReAct converter or the webhook API to send traces in any JSON format.
Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.
Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.