マルチエージェントシステムの評価方法
マルチエージェント LLM システムを評価し、失敗を責任を負うエージェントとハンドオフに帰属させ、相互作用グラフをレビューし、各エージェントとチームを採点するための実践ガイド。
マルチエージェントシステムとは、1 つのタスクに協力して取り組む複数の LLM エージェント(プランナー、コーダー、レビュアーなど)のことです。これを評価するということは、最終的な回答を採点する以上のことを意味します。なぜなら、重要な失敗はエージェントの「間」で起こるからです。ハンドオフでの制約の取りこぼし、誤ったエージェントの引き継ぎ、自分の仕事を一度も検証しないチームなどです。有用な判断の単位は、どのエージェント・どのステップ・どのハンドオフかです。 Potato は、マルチエージェント実行を人手で評価するためのオープンソースツールであり、チーム構造のための専用設計されたアノテーション面の一式を備えています。
ここでいうマルチエージェントシステムとは、それぞれ役割を持つ別個のエージェントがメッセージを交換し制御をハンドオフする、LLM 駆動のワークフローを意味します。これらのシステムがなぜ失敗するのかに関する研究(MAST 分類体系, Why Do Multi-Agent LLM Systems Fail?)は、失敗の大きな割合がエージェント間のもの、つまり仕様の問題、エージェント間の不整合、検証の欠如であることを見出しています。フラットなトランスクリプトは、まさにそうした失敗を隠してしまいます。
なぜ単一エージェントの評価では不十分なのですか?
1 つのエージェントを評価するとき、あなたは思考・ツール呼び出し・観測の単一の系列を判断します。チームは、エージェントの間にしか存在しない失敗モードを追加します。
- ハンドオフ損失:エージェント A が知っている制約を、エージェント B が一度も受け取らない。
- 誤帰属:実行は失敗するが、責任を負うエージェントはエラーが表面化した場所よりも上流にいる。
- 協調の失敗:各エージェントは個別には有能だが、チームはループする、停滞する、あるいは一度も検証しない。
- リソース競合:2 つのエージェントが同じツールやファイルに同時に触れてデッドロックする。
最終出力だけを採点しても、チームが失敗したことはわかってもどこでかはわかりません。帰属こそが、デバッグや学習にとってデータを有用にするものです。
マルチエージェントの失敗をどう帰属させますか?
失敗帰属の研究文献(Zhang et al., Which Agent Causes Task Failures and When?, ICML 2025)は、ラベルを三つ組として枠付けます。責任を負うエージェント、決定的なステップ、そして理由です。Potato では failure_attribution スキーマがエージェントとステップの選択肢をトレース自体から生成するため、アノテーターは実際に発生したエージェントとステップの中から選びます。
annotation_schemes:
- annotation_type: radio
name: outcome
description: "Did the system succeed?"
labels: [success, failure]
- annotation_type: failure_attribution
name: attribution
description: "If it failed: which agent, which step, and why?"
steps_key: steps
agent_key: agent結果スキーマを帰属と組み合わせることで、三つ組は実際に失敗した実行に対してのみ収集されます。
トランスクリプトだけでなくチーム構造をどうレビューしますか?
2 つの面が構造を可視化します。相互作用グラフはエージェントをノードとして、ハンドオフをエッジとしてレンダリングし、アノテーターはクリティカルパスをマークして問題のあるエッジにフラグを立てます。ハンドオフレビューは、すべての制御移転をカードに変えて、不整合にフラグを立て品質を評価します。
annotation_schemes:
- annotation_type: handoff_review
name: handoffs
description: "For each handoff: flag any misalignment and rate the quality."
steps_key: steps
agent_key: agent
flags: [info_loss, dropped_constraint, garbling, goal_drift]
quality_scale: 5採点については、agent_scorecard が各エージェントを役割忠実度・貢献・協調で評価し、チームを独自の次元で採点するため、協調の悪いチームの中にいる優秀な個別エージェントが数値で可視化されます。
どの手法を使うべきですか?
- パイプラインのデバッグ:相互作用グラフと失敗帰属から始めて、実行が壊れる場所を局在化します。
- オーケストレーションパターンの比較:スコアカードを追加して、同じタスク上で sequential 対 hierarchical 対 group-chat の設計を採点します。
- 学習データや報酬データの構築:MAST モードを使って(
trajectory_eval経由で)ステップ粒度で失敗をタグ付けし、ラベルが行動したエージェントとステップに結び付くようにします。 - 並行性のバグ:ツール競合タイムラインを使って、トランスクリプトでは見えないデッドロックと競合を捉えます。
帰属についての一致度は、他のあらゆる主観的ラベルと同じように測定します。アノテーター間一致度を参照してください。
さらに読む
- マルチエージェントチーム評価 — スキーマの完全なリファレンス
- AI エージェントの評価方法 — エージェント評価のレベル
- エージェント軌跡のアノテーション — ステップごとのエラー分類体系
- コンピュータ操作・マルチモーダルエージェントの評価