Skip to content

共参照チェーン

共参照解析タスクのために、同じエンティティを指すテキストスパンをグループ化します。

共参照チェーン

共参照アノテーションにより、アノテーターは同じエンティティを指すテキストスパンをグループ化できます。これはエンティティ解決、代名詞解決、談話分析に不可欠です。

概要

共参照チェーンとは、すべて同じ現実世界のエンティティを指すメンション(テキストスパン)の集合です。例:

"Marie Curie was a physicist. She won the Nobel Prize. The scientist changed her field forever."

"Marie Curie"、"She"、"The scientist"、"her"のスパンはすべて同じ人物を指し、単一の共参照チェーンを形成します。

クイックスタート

共参照アノテーションには2つのスキーマコンポーネントが必要です:

  1. メンションを作成するためのスパンスキーマ
  2. メンションをチェーンにグループ化するための共参照スキーマ
yaml
annotation_schemes:
  - annotation_type: span
    name: mentions
    description: Highlight all entity mentions
    labels:
      - name: MENTION
        tooltip: "Any reference to an entity"
    sequential_key_binding: true
 
  - annotation_type: coreference
    name: coref_chains
    description: Group mentions that refer to the same entity
    span_schema: mentions
    allow_singletons: true

設定オプション

フィールドタイプデフォルト説明
annotation_typestring必須"coreference"でなければならない
namestring必須このスキーマの一意識別子
descriptionstring必須アノテーターに表示される指示
span_schemastring必須メンションを提供するスパンスキーマの名前
entity_typeslist[]エンティティタイプカテゴリのリスト
allow_singletonsbooleantrueメンションが1つだけのチェーンを許可
visual_display.highlight_modestring"background"表示スタイル:"background""bracket"、または"underline"

エンティティタイプ付き

チェーンをエンティティタイプで分類:

yaml
annotation_schemes:
  - annotation_type: span
    name: ner
    description: Mark named entities
    labels:
      - name: ENTITY
        tooltip: "Any named entity mention"
 
  - annotation_type: coreference
    name: coref
    description: Create coreference chains
    span_schema: ner
    entity_types:
      - name: PERSON
        color: "#6E56CF"
      - name: ORGANIZATION
        color: "#22C55E"
      - name: LOCATION
        color: "#3B82F6"
      - name: OTHER
        color: "#F59E0B"

シングルトンなし

すべてのメンションが少なくとも1つの他のメンションとリンクする必要があるタスク向け:

yaml
annotation_schemes:
  - annotation_type: span
    name: mentions
    description: Highlight co-referring mentions
    labels:
      - name: MENTION
 
  - annotation_type: coreference
    name: strict_coref
    description: All mentions must be part of a chain with at least 2 mentions
    span_schema: mentions
    allow_singletons: false

カスタム表示

yaml
annotation_schemes:
  - annotation_type: coreference
    name: coref
    description: Link coreference chains
    span_schema: mentions
    visual_display:
      highlight_mode: "underline"  # Options: background, bracket, underline

ユーザーインターフェース

チェーンの作成

  1. メンションを作成: スパンアノテーションツールを使用してすべてのエンティティメンションをハイライト
  2. メンションを選択: チェーンにしたいハイライトされたスパンをクリック
  3. チェーンを作成: 「新しいチェーン」をクリックして選択したメンションをグループ化

チェーンの管理

  • チェーンに追加: 追加のメンションを選択して「チェーンに追加」をクリック
  • チェーンのマージ: 複数のチェーンを選択して「チェーンのマージ」をクリックして結合
  • メンションの削除: メンションを選択して「メンションの削除」をクリックしてチェーンから削除

カラーコーディング

各チェーンには自動的に異なるカラーが割り当てられます。同じチェーン内のメンションは同じカラーを共有し、チェーンメンバーシップの視覚的な識別が容易になります。

出力形式

共参照アノテーションはスパンリンクとして保存されます:

json
{
  "span_links": [
    {
      "schema": "coref_chains",
      "link_type": "coreference",
      "span_ids": ["mentions_0_5_MENTION", "mentions_34_37_MENTION", "mentions_72_85_MENTION"],
      "entity_type": "PERSON"
    },
    {
      "schema": "coref_chains",
      "link_type": "coreference",
      "span_ids": ["mentions_15_23_MENTION", "mentions_95_97_MENTION"],
      "entity_type": "ORGANIZATION"
    }
  ]
}

推奨ワークフロー

  1. 第1パス - テキストを読み通してすべてのエンティティメンションをハイライト
  2. 第2パス - メンションを共参照チェーンにグループ化
  3. レビュー - すべてのメンションが正しく割り当てられ、チェーンの欠落がないか確認

ベストプラクティス

  1. 明確なメンション境界を定義 - 何がメンションとしてカウントされるかのガイドラインを確立
  2. 入れ子のメンションに対応 - "the CEO of Microsoft"のようなケースの処理方法を決定
  3. 一般的な参照を考慮 - 一般的な参照を含めるかどうかを決定
  4. アノテーターを訓練 - 共参照は複雑。例と練習ラウンドを提供
  5. エンティティタイプは控えめに - 多すぎるとデータ品質を向上させずにアノテーションを遅くする

関連資料

実装の詳細については、ソースドキュメントを参照してください。