共参照チェーン
共参照解析タスクのために、同じエンティティを指すテキストスパンをグループ化します。
共参照チェーン
共参照アノテーションにより、アノテーターは同じエンティティを指すテキストスパンをグループ化できます。これはエンティティ解決、代名詞解決、談話分析に不可欠です。
概要
共参照チェーンとは、すべて同じ現実世界のエンティティを指すメンション(テキストスパン)の集合です。例:
"Marie Curie was a physicist. She won the Nobel Prize. The scientist changed her field forever."
"Marie Curie"、"She"、"The scientist"、"her"のスパンはすべて同じ人物を指し、単一の共参照チェーンを形成します。
クイックスタート
共参照アノテーションには2つのスキーマコンポーネントが必要です:
- メンションを作成するためのスパンスキーマ
- メンションをチェーンにグループ化するための共参照スキーマ
yaml
annotation_schemes:
- annotation_type: span
name: mentions
description: Highlight all entity mentions
labels:
- name: MENTION
tooltip: "Any reference to an entity"
sequential_key_binding: true
- annotation_type: coreference
name: coref_chains
description: Group mentions that refer to the same entity
span_schema: mentions
allow_singletons: true設定オプション
| フィールド | タイプ | デフォルト | 説明 |
|---|---|---|---|
annotation_type | string | 必須 | "coreference"でなければならない |
name | string | 必須 | このスキーマの一意識別子 |
description | string | 必須 | アノテーターに表示される指示 |
span_schema | string | 必須 | メンションを提供するスパンスキーマの名前 |
entity_types | list | [] | エンティティタイプカテゴリのリスト |
allow_singletons | boolean | true | メンションが1つだけのチェーンを許可 |
visual_display.highlight_mode | string | "background" | 表示スタイル:"background"、"bracket"、または"underline" |
例
エンティティタイプ付き
チェーンをエンティティタイプで分類:
yaml
annotation_schemes:
- annotation_type: span
name: ner
description: Mark named entities
labels:
- name: ENTITY
tooltip: "Any named entity mention"
- annotation_type: coreference
name: coref
description: Create coreference chains
span_schema: ner
entity_types:
- name: PERSON
color: "#6E56CF"
- name: ORGANIZATION
color: "#22C55E"
- name: LOCATION
color: "#3B82F6"
- name: OTHER
color: "#F59E0B"シングルトンなし
すべてのメンションが少なくとも1つの他のメンションとリンクする必要があるタスク向け:
yaml
annotation_schemes:
- annotation_type: span
name: mentions
description: Highlight co-referring mentions
labels:
- name: MENTION
- annotation_type: coreference
name: strict_coref
description: All mentions must be part of a chain with at least 2 mentions
span_schema: mentions
allow_singletons: falseカスタム表示
yaml
annotation_schemes:
- annotation_type: coreference
name: coref
description: Link coreference chains
span_schema: mentions
visual_display:
highlight_mode: "underline" # Options: background, bracket, underlineユーザーインターフェース
チェーンの作成
- メンションを作成: スパンアノテーションツールを使用してすべてのエンティティメンションをハイライト
- メンションを選択: チェーンにしたいハイライトされたスパンをクリック
- チェーンを作成: 「新しいチェーン」をクリックして選択したメンションをグループ化
チェーンの管理
- チェーンに追加: 追加のメンションを選択して「チェーンに追加」をクリック
- チェーンのマージ: 複数のチェーンを選択して「チェーンのマージ」をクリックして結合
- メンションの削除: メンションを選択して「メンションの削除」をクリックしてチェーンから削除
カラーコーディング
各チェーンには自動的に異なるカラーが割り当てられます。同じチェーン内のメンションは同じカラーを共有し、チェーンメンバーシップの視覚的な識別が容易になります。
出力形式
共参照アノテーションはスパンリンクとして保存されます:
json
{
"span_links": [
{
"schema": "coref_chains",
"link_type": "coreference",
"span_ids": ["mentions_0_5_MENTION", "mentions_34_37_MENTION", "mentions_72_85_MENTION"],
"entity_type": "PERSON"
},
{
"schema": "coref_chains",
"link_type": "coreference",
"span_ids": ["mentions_15_23_MENTION", "mentions_95_97_MENTION"],
"entity_type": "ORGANIZATION"
}
]
}推奨ワークフロー
- 第1パス - テキストを読み通してすべてのエンティティメンションをハイライト
- 第2パス - メンションを共参照チェーンにグループ化
- レビュー - すべてのメンションが正しく割り当てられ、チェーンの欠落がないか確認
ベストプラクティス
- 明確なメンション境界を定義 - 何がメンションとしてカウントされるかのガイドラインを確立
- 入れ子のメンションに対応 - "the CEO of Microsoft"のようなケースの処理方法を決定
- 一般的な参照を考慮 - 一般的な参照を含めるかどうかを決定
- アノテーターを訓練 - 共参照は複雑。例と練習ラウンドを提供
- エンティティタイプは控えめに - 多すぎるとデータ品質を向上させずにアノテーションを遅くする
関連資料
- スパンアノテーション - テキストスパンの作成
- エンティティリンキング - スパンの知識ベースへのリンク
- スパンリンキング - その他のスパン関係タイプ
実装の詳細については、ソースドキュメントを参照してください。