Potato 2.1:インスタンス表示、ビジュアルAI、スパンリンキング
Potato 2.1.0は、インスタンス表示システム、画像・ビデオアノテーションのビジュアルAIサポート、スパンリンキング、マルチフィールドスパン、レイアウトカスタマイズを導入します。
Potato 2.1:インスタンス表示、ビジュアルAI、スパンリンキング
Potato 2.1.0のリリースを発表いたします。アノテーションプラットフォームに5つの主要機能を追加する機能満載のリリースです。本アップデートでは、マルチモーダルコンテンツ表示、AI搭載のビジュアルアノテーション、より豊富な関係アノテーションに焦点を当てています。
インスタンス表示システム
v2.1の目玉機能は、新しいinstance_display設定ブロックです。以前は、ラジオボタンと並んで画像を表示するには、min_annotations: 0のimage_annotationスキーマを作成するなどの不自然な回避策が必要でした。現在は、表示するコンテンツと収集するアノテーションを明示的に分離できます。
instance_display:
layout:
direction: horizontal
gap: 24px
fields:
- key: image_url
type: image
label: "Image to Classify"
display_options:
max_width: 600
zoomable: true
- key: description
type: text
label: "Context"
annotation_schemes:
- annotation_type: radio
name: category
labels: [nature, urban, people, objects]インスタンス表示は11のコンテンツタイプをサポートしています:text、html、image、video、audio、dialogue、pairwise、code、spreadsheet、document、pdf。複数の表示フィールドを任意のアノテーションスキームと組み合わせ、水平または垂直に配置し、span_target: trueでテキストフィールドのスパンアノテーションを有効にできます。
注目すべき機能はターンごとの対話評価です。個々の会話ターンにインラインのリッカートスケール評価ウィジェットを追加でき、アノテーターが会話ビューを離れることなく特定の話者を評価できます。
マルチフィールドスパンアノテーション
スパンアノテーションがtarget_fieldオプションをサポートするようになり、同じデータインスタンス内の複数のテキストフィールドにわたるアノテーションが可能になりました。これは、ソース文書とその要約の両方でエンティティをアノテーションする必要がある要約評価などのタスクに不可欠です。
annotation_schemes:
- annotation_type: span
name: source_entities
target_field: "source_text"
labels: [PERSON, ORGANIZATION, LOCATION]
- annotation_type: span
name: summary_entities
target_field: "summary"
labels: [PERSON, ORGANIZATION, LOCATION]出力アノテーションはフィールド名でキー付けされるため、各スパンがどのテキストフィールドに属するかが明確です。
スパンリンキング
新しいspan_linkアノテーションタイプにより、アノテーションされたスパン間に型付き関係を作成する関係抽出が可能になります。知識グラフの構築、共参照解決、談話分析などのタスクに対応します。
annotation_schemes:
- annotation_type: span
name: entities
labels:
- name: "PERSON"
color: "#3b82f6"
- name: "ORGANIZATION"
color: "#22c55e"
- annotation_type: span_link
name: relations
span_schema: entities
link_types:
- name: "WORKS_FOR"
directed: true
allowed_source_labels: ["PERSON"]
allowed_target_labels: ["ORGANIZATION"]
color: "#dc2626"
- name: "COLLABORATES_WITH"
directed: false
allowed_source_labels: ["PERSON"]
allowed_target_labels: ["PERSON"]
color: "#06b6d4"主要な機能には、有向および無向リンク、n項関係(2つ以上のスパン間のリンク)、テキスト上のビジュアルアーク表示、各関係タイプに参加できるエンティティタイプを制限するラベル制約が含まれます。
ビジュアルAIサポート
Potato 2.1は、画像およびビデオアノテーションタスクにAI搭載の支援をもたらす4つの新しいビジョンエンドポイントを導入します。これはPotatoのAI機能をテキスト以外に大幅に拡張するものです。
4つのビジョンエンドポイント
YOLO — ローカル推論を使用した高速で精密なオブジェクト検出に最適。YOLOv8バリアントとオープンボキャブラリ検出用のYOLO-Worldをサポート。
ai_support:
enabled: true
endpoint_type: "yolo"
ai_config:
model: "yolov8m.pt"
confidence_threshold: 0.5
iou_threshold: 0.45Ollama Vision — Ollamaでビジョン言語モデルをローカルで実行。LLaVA、Llama 3.2 Vision、Qwen2.5-VL、BakLLaVA、Moondreamをサポート。
ai_support:
enabled: true
endpoint_type: "ollama_vision"
ai_config:
model: "llava:latest"
base_url: "http://localhost:11434"OpenAI Vision — 設定可能な詳細レベルでGPT-4oを使用したクラウドベースのビジョン分析。
ai_support:
enabled: true
endpoint_type: "openai_vision"
ai_config:
api_key: "${OPENAI_API_KEY}"
model: "gpt-4o"
detail: "auto"Anthropic Vision — 画像理解と分類のためのビジョン機能を備えたClaude。
ai_support:
enabled: true
endpoint_type: "anthropic_vision"
ai_config:
api_key: "${ANTHROPIC_API_KEY}"
model: "claude-sonnet-4-20250514"画像AI機能
画像アノテーションタスク向けに、ビジュアルAIは4つの支援モードを提供します:
- 検出 — 設定されたラベルに一致するオブジェクトを見つけ、破線のオーバーレイとして提案バウンディングボックスを描画
- 事前アノテーション(自動) — 画像内のすべてのオブジェクトを自動検出し、人間のレビュー用の提案を作成
- 分類 — 選択した領域または画像全体を信頼度スコア付きで分類
- ヒント — 正確な位置を明かさずにガイダンスを提供、アノテーターのトレーニングに有用
annotation_schemes:
- annotation_type: image_annotation
name: object_detection
tools: [bbox, polygon]
labels:
- name: "person"
color: "#FF6B6B"
- name: "car"
color: "#4ECDC4"
ai_support:
enabled: true
features:
detection: true
pre_annotate: true
classification: false
hint: trueビデオAI機能
ビデオタスクでは、ビジュアルAIがシーン検出(シーン境界の識別と時間的セグメントの提案)、キーフレーム検出(重要な瞬間の発見)、オブジェクトトラッキング(フレーム間の位置の提案)を追加します。
承認/却下ワークフロー
AIの提案は破線のオーバーレイとして表示され、アノテーターは承認(ダブルクリック)、却下(右クリック)、すべて承認、またはすべてクリアできます。人間をループに保ちながらアノテーションを加速します。
ビジュアルとテキストの個別エンドポイント
テキストとビジュアルタスクに異なるAIエンドポイントを設定し、各コンテンツタイプに最適なモデルを使用できます:
ai_support:
enabled: true
endpoint_type: "ollama" # Text annotations
visual_endpoint_type: "yolo" # Image/video annotations
ai_config:
model: "llama3.2"
visual_ai_config:
model: "yolov8m.pt"
confidence_threshold: 0.5レイアウトカスタマイズ
Potato 2.1は、洗練されたカスタムビジュアルレイアウトのサポートを追加します。Potatoはデフォルトで編集可能なlayouts/task_layout.htmlファイルを生成し、CSSグリッドレイアウト、色分けされたオプション、セクションスタイリングを備えた完全なカスタムHTMLテンプレートを提供できます。
task_layout: layouts/custom_task_layout.htmlproject-hub/layout-examples/に3つのサンプルレイアウトが含まれています:
- コンテンツモデレーション — 警告バナー、2カラムグリッド、色分けされた重要度
- 対話QA — ケースメタデータ、円形リッカート評価、グループ化された評価
- 医療レビュー — プロフェッショナルな医療スタイリング、構造化されたレポート
カスタムレイアウトは新しいinstance_displayシステムと連携して動作します。表示コンテンツはカスタムアノテーションフォームの上にレンダリングされます。
その他の改善
ラベル根拠
ヒント、キーワードハイライト、ラベル提案に続く4番目のAI機能。根拠は、各ラベルが適用される理由についてバランスの取れた説明を生成し、アノテーターが異なる分類の背後にある推論を理解するのに役立ちます。
ai_support:
features:
rationales:
enabled: trueバグ修正とテスト
- 信頼性向上のための50以上の新しいテスト
- アノテーションタイプ全体のレスポンシブデザインの改善
- レイアウト例を含むproject-hubの組織改善
v2.1へのアップグレード
pip install --upgrade potato-annotation既存のv2.0設定は変更なしで動作します。すべての新機能はinstance_display、span_linkスキーム、ビジュアルAIエンドポイントなどの追加設定ブロックを通じてオプトインです。
はじめに
- 新機能 — v2.1機能の完全な概要
- インスタンス表示 — マルチモーダルコンテンツ表示
- ビジュアルAIサポート — 画像・ビデオアノテーション向けAI
- スパンリンキング — エンティティ関係アノテーション
- レイアウトカスタマイズ — カスタムHTMLテンプレート