Potato 2.2:イベント、エンティティリンキング、エクスポート、55の調査票
Potato 2.2.0は9つの新しいアノテーションスキーマ、プラグ可能なエクスポートシステム、MACE能力推定、55の検証済み調査票、リモートデータソースを追加します。
Potato 2.2:イベント、エンティティリンキング、エクスポート、55の調査票
Potato 2.2.0のリリースを発表いたします。アノテーションできる内容とアノテーション品質の管理方法を大幅に拡張するメジャーフィーチャーリリースです。本アップデートでは、9つの新しいアノテーションスキーマ、プラグ可能なエクスポートシステム、MACE能力推定、55の検証済み調査票、リモートデータソースが追加されました。
新しいアノテーションスキーマ
イベントアノテーション
v2.2の目玉アノテーション機能はN項イベントアノテーションです。イベントは、トリガースパン(イベントを示す単語)と型付きセマンティックロールを持つ引数スパンで構成されます。ハブスポーク型のアーク可視化がトリガーとその引数を接続します。
annotation_schemes:
- annotation_type: event_annotation
name: events
span_schema: entities
event_types:
- type: "ATTACK"
trigger_labels: ["EVENT_TRIGGER"]
arguments:
- role: "attacker"
entity_types: ["PERSON", "ORGANIZATION"]
required: true
- role: "target"
entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
required: trueこれにより、以前はカスタムツールが必要だった情報抽出、意味役割ラベリング、知識グラフ構築タスクが可能になります。
エンティティリンキング
スパンアノテーションを外部知識ベースにリンクできるようになりました。アノテーターはテキストをハイライトし、ラベルを割り当て、検索モーダルを使用して一致するWikidata、UMLS、またはカスタムKBエンティティを見つけてリンクします。
annotation_schemes:
- annotation_type: span
name: ner
labels: [PERSON, ORGANIZATION, LOCATION]
entity_linking:
enabled: true
knowledge_bases:
- name: wikidata
type: wikidata
language: en曖昧なエンティティのマルチセレクトモードと、単一タスク内での複数の知識ベースをサポートしています。
トリアージ、ペアワイズ、共参照など
6つの追加アノテーションタイプがv2.2のスキーマ追加を構成します:
- トリアージ — 自動進行とキーボードショートカットを備えた高速データスクリーニング用の承認/却下/スキップインターフェース
- ペアワイズ比較 — 選好学習およびRLHFデータ収集用のバイナリA/Bまたはスケールスライダー
- 会話ツリー — ノードごとの評価とパス選択を備えた階層的ツリーアノテーション
- 共参照チェーン — 視覚的インジケーターを使用して共参照メンションをチェーンにグループ化
- セグメンテーションマスク — ピクセルレベルの画像アノテーション用の新しい塗りつぶし、消しゴム、ブラシツール
- 非連続スパン — 非連続なテキスト選択のための
allow_discontinuous: true
インテリジェントアノテーション
MACE能力推定
MACEは変分ベイズEMアルゴリズムを使用して、真のラベルとアノテーターの能力スコア(0.0-1.0)を同時に推定します。信頼性の高いアノテーターを識別し、スパマーを検出し、より高品質な予測ラベルを生成します。
mace:
enabled: true
trigger_every_n: 10
min_annotations_per_item: 3MACEはバックグラウンドで自動的に実行され、管理ダッシュボードおよび裁定システムと統合されます。
オプションハイライト
離散的なアノテーションタスクでコンテンツを分析して最も正しい可能性の高いオプションをハイライトする新しいAI機能。上位k個のオプションはスターインジケーター付きで完全な不透明度で表示され、可能性の低いオプションは薄く表示されます。
ai_support:
option_highlighting:
enabled: true
top_k: 3
dim_opacity: 0.4多様性順序付け
文トランスフォーマー埋め込みが類似アイテムをクラスターにグループ化し、ラウンドロビンサンプリングが異なるクラスターからアイテムを提示します。これによりアノテーターの疲労が軽減され、トピック空間のカバレッジが向上します。
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100エクスポートシステム
新しいエクスポートCLI(python -m potato.export)は、単一のコマンドでアノテーションを6つの業界標準フォーマットに変換します:
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/サポートされているフォーマット:COCO、YOLO、Pascal VOC、CoNLL-2003、CoNLL-U、セグメンテーションマスク。システムは拡張可能で、BaseExporterをサブクラス化してカスタムエクスポーターを作成できます。
リモートデータソース
URL、S3、Google Drive、Dropbox、Hugging Faceデータセット、Google Sheets、SQLデータベースからアノテーションデータを読み込みます:
data_sources:
- type: huggingface
dataset: "squad"
split: "train"
- type: s3
bucket: "my-annotation-data"
key: "datasets/items.jsonl"大規模データセットの部分的/増分読み込み、ローカルキャッシュ、環境変数によるセキュアな資格情報管理を含みます。
調査票
事前調査・事後調査フェーズですぐに使える55の検証済みアンケートライブラリ:
phases:
prestudy:
type: prestudy
instrument: "tipi" # 10-item personality questionnaire
poststudy:
type: poststudy
instrument: "phq-9" # 9-item depression screening調査票は8つのカテゴリにまたがります:性格(BFI-2、TIPI)、メンタルヘルス(PHQ-9、GAD-7)、感情(PANAS)、自己概念(RSE)、社会的態度(SDO-7、MFQ)、回答スタイル、短縮版、主要調査(ANES、GSS、ESS)の人口統計バッテリー。
UXの改善
- キーフレーム補間を使用したビデオオブジェクトトラッキング
- PDFページ上のバウンディングボックスアノテーション
- 外部AI設定ファイルのサポート
- フォームレイアウトグリッドの改善
v2.2へのアップグレード
pip install --upgrade potato-annotation既存のv2.0およびv2.1設定は変更なしで動作します。すべての新機能は追加の設定ブロックを通じてオプトインです。
はじめに
- 新機能 — v2.2機能の完全な概要
- イベントアノテーション — N項イベント構造
- エンティティリンキング — 知識ベースリンキング
- MACE — アノテーター能力推定
- エクスポートフォーマット — エクスポートCLI
- 調査票 — 55の検証済みアンケート