マルチレート(マトリックス評価)
マトリックス形式で同じスケールを使用して複数のアイテムを評価。
マルチレート(マトリックス評価)アノテーション
マルチレートタイプは、各アイテムが同じスケールで評価されるマトリックス形式で複数のアイテムを表示します。単一アイテムの複数の次元を評価するのに最適です。
基本設定
yaml
annotation_schemes:
- name: "aspect_ratings"
description: "Rate each aspect of the response"
annotation_type: "multirate"
labels:
- name: "Accuracy"
- name: "Clarity"
- name: "Helpfulness"
options:
- name: "1"
- name: "2"
- name: "3"
- name: "4"
- name: "5"設定オプション
| フィールド | タイプ | 必須 | 説明 |
|---|---|---|---|
name | string | はい | アノテーションの一意識別子 |
description | string | はい | アノテーターに表示される指示 |
annotation_type | string | はい | "multirate"でなければならない |
labels | array | はい | 評価されるアイテム(行) |
options | array | はい | 評価スケールオプション(列) |
size | number | いいえ | optionsの代替:スケールポイント数 |
min_label | string | いいえ | 最低評価のラベル |
max_label | string | いいえ | 最高評価のラベル |
randomize | boolean | いいえ | アイテム順序をランダム化 |
compact | boolean | いいえ | コンパクトレイアウトを使用 |
例
応答品質評価
yaml
- name: "quality_assessment"
description: "Rate each aspect of the AI response"
annotation_type: "multirate"
labels:
- name: "Accuracy"
tooltip: "Is the information factually correct?"
- name: "Completeness"
tooltip: "Does it fully address the question?"
- name: "Clarity"
tooltip: "Is it easy to understand?"
- name: "Relevance"
tooltip: "Does it stay on topic?"
size: 5
min_label: "Poor"
max_label: "Excellent"翻訳品質
yaml
- name: "translation_quality"
description: "Evaluate the translation quality"
annotation_type: "multirate"
labels:
- name: "Fluency"
- name: "Adequacy"
- name: "Terminology"
- name: "Style"
options:
- name: "1 - Unacceptable"
- name: "2 - Poor"
- name: "3 - Acceptable"
- name: "4 - Good"
- name: "5 - Excellent"製品レビューの次元
yaml
- name: "product_dimensions"
description: "Rate each aspect of the product"
annotation_type: "multirate"
labels:
- name: "Build Quality"
- name: "Value for Money"
- name: "Ease of Use"
- name: "Customer Support"
- name: "Documentation"
size: 5
min_label: "Very Poor"
max_label: "Excellent"
randomize: true出力形式
マルチレートアノテーションは各アイテムをその評価にマッピングする辞書を出力します:
json
{
"id": "item_1",
"annotations": {
"aspect_ratings": {
"Accuracy": "4",
"Clarity": "5",
"Helpfulness": "3"
}
}
}ユースケース
- LLM評価: 複数の品質次元での応答評価
- 翻訳評価: 流暢さ、適切さ、用語の評価
- 製品レビュー: 異なる製品側面の評価収集
- 調査研究: リッカート式マトリックス質問
- 査読: 複数の基準での論文評価
ベストプラクティス
- アイテム数を制限 - 3〜7アイテムが最適。多すぎると疲労を招く
- 一貫したスケールを使用 - すべてのアイテムで同じ評価スケールを使用
- 論理的に順序付け - 関連する次元をグループ化
- 明確な定義を提供 - ツールチップで各次元を説明
- ランダム化を検討 - 応答の順序バイアスを防止