Note: This post describes Potato 2.1 as it was at release. Some configuration keys and features have been updated in later versions. See the current documentation for up-to-date configuration syntax.

Potato 2.1：インスタンス表示、ビジュアルAI、スパンリンキング

Potato 2.1.0のリリースを発表いたします。アノテーションプラットフォームに5つの主要機能を追加する機能満載のリリースです。本アップデートでは、マルチモーダルコンテンツ表示、AI搭載のビジュアルアノテーション、より豊富な関係アノテーションに焦点を当てています。

インスタンス表示システム

v2.1の目玉機能は、新しいinstance_display設定ブロックです。以前は、ラジオボタンと並んで画像を表示するには、min_annotations: 0のimage_annotationスキーマを作成するなどの不自然な回避策が必要でした。現在は、表示するコンテンツと収集するアノテーションを明示的に分離できます。

yaml

instance_display:
  layout:
    direction: horizontal
    gap: 24px
  fields:
    - key: image_url
      type: image
      label: "Image to Classify"
      display_options:
        max_width: 600
        zoomable: true
    - key: description
      type: text
      label: "Context"
 
annotation_schemes:
  - annotation_type: radio
    name: category
    labels: [nature, urban, people, objects]

インスタンス表示は11のコンテンツタイプをサポートしています：text、html、image、video、audio、dialogue、pairwise、code、spreadsheet、document、pdf。複数の表示フィールドを任意のアノテーションスキームと組み合わせ、水平または垂直に配置し、span_target: trueでテキストフィールドのスパンアノテーションを有効にできます。

注目すべき機能はターンごとの対話評価です。個々の会話ターンにインラインのリッカートスケール評価ウィジェットを追加でき、アノテーターが会話ビューを離れることなく特定の話者を評価できます。

インスタンス表示の完全なドキュメントを読む →

マルチフィールドスパンアノテーション

スパンアノテーションがtarget_fieldオプションをサポートするようになり、同じデータインスタンス内の複数のテキストフィールドにわたるアノテーションが可能になりました。これは、ソース文書とその要約の両方でエンティティをアノテーションする必要がある要約評価などのタスクに不可欠です。

yaml

annotation_schemes:
  - annotation_type: span
    name: source_entities
    target_field: "source_text"
    labels: [PERSON, ORGANIZATION, LOCATION]
 
  - annotation_type: span
    name: summary_entities
    target_field: "summary"
    labels: [PERSON, ORGANIZATION, LOCATION]

出力アノテーションはフィールド名でキー付けされるため、各スパンがどのテキストフィールドに属するかが明確です。

更新されたスパンアノテーションドキュメントを読む →

スパンリンキング

新しいspan_linkアノテーションタイプにより、アノテーションされたスパン間に型付き関係を作成する関係抽出が可能になります。知識グラフの構築、共参照解決、談話分析などのタスクに対応します。

yaml

annotation_schemes:
  - annotation_type: span
    name: entities
    labels:
      - name: "PERSON"
        color: "#3b82f6"
      - name: "ORGANIZATION"
        color: "#22c55e"
 
  - annotation_type: span_link
    name: relations
    span_schema: entities
    link_types:
      - name: "WORKS_FOR"
        directed: true
        allowed_source_labels: ["PERSON"]
        allowed_target_labels: ["ORGANIZATION"]
        color: "#dc2626"
      - name: "COLLABORATES_WITH"
        directed: false
        allowed_source_labels: ["PERSON"]
        allowed_target_labels: ["PERSON"]
        color: "#06b6d4"

主要な機能には、有向および無向リンク、n項関係（2つ以上のスパン間のリンク）、テキスト上のビジュアルアーク表示、各関係タイプに参加できるエンティティタイプを制限するラベル制約が含まれます。

スパンリンキングの完全なドキュメントを読む →

ビジュアルAIサポート

Potato 2.1は、画像およびビデオアノテーションタスクにAI搭載の支援をもたらす4つの新しいビジョンエンドポイントを導入します。これはPotatoのAI機能をテキスト以外に大幅に拡張するものです。

4つのビジョンエンドポイント

YOLO — ローカル推論を使用した高速で精密なオブジェクト検出に最適。YOLOv8バリアントとオープンボキャブラリ検出用のYOLO-Worldをサポート。

yaml

ai_support:
  enabled: true
  endpoint_type: "yolo"
  ai_config:
    model: "yolov8m.pt"
    confidence_threshold: 0.5
    iou_threshold: 0.45

Ollama Vision — Ollamaでビジョン言語モデルをローカルで実行。LLaVA、Llama 3.2 Vision、Qwen2.5-VL、BakLLaVA、Moondreamをサポート。

yaml

ai_support:
  enabled: true
  endpoint_type: "ollama_vision"
  ai_config:
    model: "llava:latest"
    base_url: "http://localhost:11434"

OpenAI Vision — 設定可能な詳細レベルでGPT-4oを使用したクラウドベースのビジョン分析。

yaml

ai_support:
  enabled: true
  endpoint_type: "openai_vision"
  ai_config:
    api_key: "${OPENAI_API_KEY}"
    model: "gpt-4o"
    detail: "auto"

Anthropic Vision — 画像理解と分類のためのビジョン機能を備えたClaude。

yaml

ai_support:
  enabled: true
  endpoint_type: "anthropic_vision"
  ai_config:
    api_key: "${ANTHROPIC_API_KEY}"
    model: "claude-sonnet-4-20250514"

画像AI機能

画像アノテーションタスク向けに、ビジュアルAIは4つの支援モードを提供します：

検出 — 設定されたラベルに一致するオブジェクトを見つけ、破線のオーバーレイとして提案バウンディングボックスを描画
事前アノテーション（自動） — 画像内のすべてのオブジェクトを自動検出し、人間のレビュー用の提案を作成
分類 — 選択した領域または画像全体を信頼度スコア付きで分類
ヒント — 正確な位置を明かさずにガイダンスを提供、アノテーターのトレーニングに有用

yaml

annotation_schemes:
  - annotation_type: image_annotation
    name: object_detection
    tools: [bbox, polygon]
    labels:
      - name: "person"
        color: "#FF6B6B"
      - name: "car"
        color: "#4ECDC4"
    ai_support:
      enabled: true
      features:
        detection: true
        pre_annotate: true
        classification: false
        hint: true

ビデオAI機能

ビデオタスクでは、ビジュアルAIがシーン検出（シーン境界の識別と時間的セグメントの提案）、キーフレーム検出（重要な瞬間の発見）、オブジェクトトラッキング（フレーム間の位置の提案）を追加します。

承認/却下ワークフロー

AIの提案は破線のオーバーレイとして表示され、アノテーターは承認（ダブルクリック）、却下（右クリック）、すべて承認、またはすべてクリアできます。人間をループに保ちながらアノテーションを加速します。

ビジュアルとテキストの個別エンドポイント

テキストとビジュアルタスクに異なるAIエンドポイントを設定し、各コンテンツタイプに最適なモデルを使用できます：

yaml

ai_support:
  enabled: true
  endpoint_type: "ollama"          # Text annotations
  visual_endpoint_type: "yolo"     # Image/video annotations
  ai_config:
    model: "llama3.2"
  visual_ai_config:
    model: "yolov8m.pt"
    confidence_threshold: 0.5

ビジュアルAIサポートの完全なドキュメントを読む →

レイアウトカスタマイズ

Potato 2.1は、洗練されたカスタムビジュアルレイアウトのサポートを追加します。Potatoはデフォルトで編集可能なlayouts/task_layout.htmlファイルを生成し、CSSグリッドレイアウト、色分けされたオプション、セクションスタイリングを備えた完全なカスタムHTMLテンプレートを提供できます。

yaml

task_layout: layouts/custom_task_layout.html

project-hub/layout-examples/に3つのサンプルレイアウトが含まれています：

コンテンツモデレーション — 警告バナー、2カラムグリッド、色分けされた重要度
対話QA — ケースメタデータ、円形リッカート評価、グループ化された評価
医療レビュー — プロフェッショナルな医療スタイリング、構造化されたレポート

カスタムレイアウトは新しいinstance_displayシステムと連携して動作します。表示コンテンツはカスタムアノテーションフォームの上にレンダリングされます。

レイアウトカスタマイズの完全なドキュメントを読む →

その他の改善

ラベル根拠

ヒント、キーワードハイライト、ラベル提案に続く4番目のAI機能。根拠は、各ラベルが適用される理由についてバランスの取れた説明を生成し、アノテーターが異なる分類の背後にある推論を理解するのに役立ちます。

yaml

ai_support:
  features:
    rationales:
      enabled: true

バグ修正とテスト

信頼性向上のための50以上の新しいテスト
アノテーションタイプ全体のレスポンシブデザインの改善
レイアウト例を含むproject-hubの組織改善

v2.1へのアップグレード

bash

pip install --upgrade potato-annotation

既存のv2.0設定は変更なしで動作します。すべての新機能はinstance_display、span_linkスキーム、ビジュアルAIエンドポイントなどの追加設定ブロックを通じてオプトインです。

はじめに

新機能 — v2.1機能の完全な概要
インスタンス表示 — マルチモーダルコンテンツ表示
ビジュアルAIサポート — 画像・ビデオアノテーション向けAI
スパンリンキング — エンティティ関係アノテーション
レイアウトカスタマイズ — カスタムHTMLテンプレート

ご質問やフィードバックはDiscordに参加するか、GitHubでイシューを開いてください。