コンピュータ操作・マルチモーダルエージェントの評価

コンピュータ操作・GUI エージェント、さらに音声・動画・文書エージェントを人手で評価する方法。各アクションとクリックを判断し、ターンの取り合いを採点し、イベントを時間でグラウンディングします。

コンピュータ操作エージェントは、人間と同じようにグラフィカルインターフェースを操作します。スクリーンショットを読み、アクション（クリック、入力、スクロール）を決定し、実行します。これを評価するということは、タスクが最終的に成功したかどうかだけでなく、ステップごとに、各アクションが正しかったか、そしてクリックが実際に意図した要素に着地したかを確認することです。 Potato は、コンピュータ操作・GUI・音声・動画・文書エージェントを人手で評価するためのオープンソースツールであり、各モダリティ専用に設計されたアノテーション面を備えています。

コンピュータ操作エージェント（GUI エージェントまたは OS エージェントとも呼ばれます）は、画面をピクセルや DOM として知覚し、ユーザーが持つのと同じコントロールを通じて行動します。OSWorld、ScreenSpot、AndroidWorld のようなベンチマークはタスクの成功を自動的に採点しますが、人手によるレビューは自動化が見逃すものを補います。たまたま正しい結果を生んだアクションや、誤ったボタンを押したのにタスクを進めてしまったクリックなどです。

コンピュータ操作軌跡で何を判断しますか？

各ステップは、スクリーンショット（エージェントが見たもの）とアクション（それが行ったこと）を対にします。アノテーターはアクションを判断し、ステップがクリック座標を持つ場合は、スクリーンショット上のグラウンディングマーカーを確認します。

アクションの正しさ：正しい、誤った要素、誤ったアクション、または幻覚。
クリックグラウンディング：座標はアクションが名指した要素に着地したか？
結果：実行はタスクを完了したか、そして最初にどのステップで誤ったか？

yaml

annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

最初の誤ったステップを捉えることは、単一の合否よりも重要です。なぜなら、そのステップこそが、あなたが修正または学習の対象とするものだからです。プロセス報酬モデルを参照してください。

音声エージェントのターンの取り合いをどう評価しますか？

音声エージェントは、ターンの継ぎ目で失敗します。ユーザーを遮る、被せて話す、あるいは長く間を空けすぎるなどです。voice_interaction スキーマは会話をデュアルトラックタイムラインとしてレイアウトし、両話者が同時に話すオーバーラップ領域をハイライトします。アノテーターはこれを分類し（エージェントは応答すべき、再開すべき、バックチャネルだった、または不明）、全体的なターンの取り合いを評価します。これは、フラットなトランスクリプトでは表現できない全二重のビューです。

動画エージェントと文書エージェントをどう採点しますか？

動画時間グラウンディング：各イベントプロンプトについて、ゴールドの [start, end] 区間をマークします。データにモデルの予測区間が含まれる場合、調整に合わせてライブの IoU が更新されるため、局在化を直接採点できます。
音声トランスクリプト：ASR/TTS エラーをセグメントごとにタグ付けし、テキストをインラインで修正します。
文書テーブル：バウンディングボックスでは捉えられないセル構造（列ヘッダー、行ヘッダー、データ、空）をマークします。
インターリーブ推論：テキスト・画像・ツールのトレースの各ステップを一貫性について評価し、視覚的幻覚にフラグを立てます。

それぞれはマルチモーダルエージェントリファレンスの中の別個のスキーマであり、いくつかは同じタスク上で実行できます。

どのスキーマを使うべきですか？

エージェントの種類	スキーマ	ラベル付けする内容
コンピュータ操作／GUI	`gui_trajectory`	アクションの正しさ＋クリックグラウンディング
音声／発話	`voice_interaction`	バージイン処理とターンの取り合い
動画	`temporal_grounding`	予測に対するゴールドイベント区間（IoU）
音声トランスクリプト	`speech_transcript`	セグメントごとの ASR/TTS エラー
文書／表	`table_grid`	セル構造の役割
マルチモーダル推論	`multimodal_reasoning`	ステップの一貫性と視覚的幻覚

さらに読む

マルチモーダルエージェント評価 — スキーマの完全なリファレンス
Web エージェント評価 — スクリーンショットとアクションの Web エージェント
AI エージェントの評価方法 — エージェント評価のレベル
マルチエージェントシステムの評価方法