Skip to content
Announcements2 min read

Potato 2.2:イベント、エンティティリンキング、エクスポート、55の調査票

Potato 2.2.0は9つの新しいアノテーションスキーマ、プラグ可能なエクスポートシステム、MACE能力推定、55の検証済み調査票、リモートデータソースを追加します。

Potato Team·

Potato 2.2:イベント、エンティティリンキング、エクスポート、55の調査票

Potato 2.2.0のリリースを発表いたします。アノテーションできる内容とアノテーション品質の管理方法を大幅に拡張するメジャーフィーチャーリリースです。本アップデートでは、9つの新しいアノテーションスキーマ、プラグ可能なエクスポートシステム、MACE能力推定、55の検証済み調査票、リモートデータソースが追加されました。

新しいアノテーションスキーマ

イベントアノテーション

v2.2の目玉アノテーション機能はN項イベントアノテーションです。イベントは、トリガースパン(イベントを示す単語)と型付きセマンティックロールを持つ引数スパンで構成されます。ハブスポーク型のアーク可視化がトリガーとその引数を接続します。

yaml
annotation_schemes:
  - annotation_type: event_annotation
    name: events
    span_schema: entities
    event_types:
      - type: "ATTACK"
        trigger_labels: ["EVENT_TRIGGER"]
        arguments:
          - role: "attacker"
            entity_types: ["PERSON", "ORGANIZATION"]
            required: true
          - role: "target"
            entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
            required: true

これにより、以前はカスタムツールが必要だった情報抽出、意味役割ラベリング、知識グラフ構築タスクが可能になります。

イベントアノテーションドキュメントを読む →

エンティティリンキング

スパンアノテーションを外部知識ベースにリンクできるようになりました。アノテーターはテキストをハイライトし、ラベルを割り当て、検索モーダルを使用して一致するWikidata、UMLS、またはカスタムKBエンティティを見つけてリンクします。

yaml
annotation_schemes:
  - annotation_type: span
    name: ner
    labels: [PERSON, ORGANIZATION, LOCATION]
    entity_linking:
      enabled: true
      knowledge_bases:
        - name: wikidata
          type: wikidata
          language: en

曖昧なエンティティのマルチセレクトモードと、単一タスク内での複数の知識ベースをサポートしています。

エンティティリンキングドキュメントを読む →

トリアージ、ペアワイズ、共参照など

6つの追加アノテーションタイプがv2.2のスキーマ追加を構成します:

  • トリアージ — 自動進行とキーボードショートカットを備えた高速データスクリーニング用の承認/却下/スキップインターフェース
  • ペアワイズ比較 — 選好学習およびRLHFデータ収集用のバイナリA/Bまたはスケールスライダー
  • 会話ツリー — ノードごとの評価とパス選択を備えた階層的ツリーアノテーション
  • 共参照チェーン — 視覚的インジケーターを使用して共参照メンションをチェーンにグループ化
  • セグメンテーションマスク — ピクセルレベルの画像アノテーション用の新しい塗りつぶし、消しゴム、ブラシツール
  • 非連続スパン — 非連続なテキスト選択のためのallow_discontinuous: true

インテリジェントアノテーション

MACE能力推定

MACEは変分ベイズEMアルゴリズムを使用して、真のラベルとアノテーターの能力スコア(0.0-1.0)を同時に推定します。信頼性の高いアノテーターを識別し、スパマーを検出し、より高品質な予測ラベルを生成します。

yaml
mace:
  enabled: true
  trigger_every_n: 10
  min_annotations_per_item: 3

MACEはバックグラウンドで自動的に実行され、管理ダッシュボードおよび裁定システムと統合されます。

MACEドキュメントを読む →

オプションハイライト

離散的なアノテーションタスクでコンテンツを分析して最も正しい可能性の高いオプションをハイライトする新しいAI機能。上位k個のオプションはスターインジケーター付きで完全な不透明度で表示され、可能性の低いオプションは薄く表示されます。

yaml
ai_support:
  option_highlighting:
    enabled: true
    top_k: 3
    dim_opacity: 0.4

オプションハイライトドキュメントを読む →

多様性順序付け

文トランスフォーマー埋め込みが類似アイテムをクラスターにグループ化し、ラウンドロビンサンプリングが異なるクラスターからアイテムを提示します。これによりアノテーターの疲労が軽減され、トピック空間のカバレッジが向上します。

yaml
assignment_strategy: diversity_clustering
diversity_ordering:
  enabled: true
  prefill_count: 100

多様性順序付けドキュメントを読む →

エクスポートシステム

新しいエクスポートCLI(python -m potato.export)は、単一のコマンドでアノテーションを6つの業界標準フォーマットに変換します:

bash
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/

サポートされているフォーマット:COCO、YOLO、Pascal VOC、CoNLL-2003、CoNLL-U、セグメンテーションマスク。システムは拡張可能で、BaseExporterをサブクラス化してカスタムエクスポーターを作成できます。

エクスポートフォーマットドキュメントを読む →

リモートデータソース

URL、S3、Google Drive、Dropbox、Hugging Faceデータセット、Google Sheets、SQLデータベースからアノテーションデータを読み込みます:

yaml
data_sources:
  - type: huggingface
    dataset: "squad"
    split: "train"
 
  - type: s3
    bucket: "my-annotation-data"
    key: "datasets/items.jsonl"

大規模データセットの部分的/増分読み込み、ローカルキャッシュ、環境変数によるセキュアな資格情報管理を含みます。

リモートデータソースドキュメントを読む →

調査票

事前調査・事後調査フェーズですぐに使える55の検証済みアンケートライブラリ:

yaml
phases:
  prestudy:
    type: prestudy
    instrument: "tipi"      # 10-item personality questionnaire
 
  poststudy:
    type: poststudy
    instrument: "phq-9"     # 9-item depression screening

調査票は8つのカテゴリにまたがります:性格(BFI-2、TIPI)、メンタルヘルス(PHQ-9、GAD-7)、感情(PANAS)、自己概念(RSE)、社会的態度(SDO-7、MFQ)、回答スタイル、短縮版、主要調査(ANES、GSS、ESS)の人口統計バッテリー。

調査票ドキュメントを読む →

UXの改善

  • キーフレーム補間を使用したビデオオブジェクトトラッキング
  • PDFページ上のバウンディングボックスアノテーション
  • 外部AI設定ファイルのサポート
  • フォームレイアウトグリッドの改善

v2.2へのアップグレード

bash
pip install --upgrade potato-annotation

既存のv2.0およびv2.1設定は変更なしで動作します。すべての新機能は追加の設定ブロックを通じてオプトインです。

はじめに


ご質問やフィードバックはDiscordに参加するか、GitHubでイシューを開いてください。