Skip to content
Announcements2 min read

Potato 2.2:事件、实体链接、导出和 55 个调查量表

Potato 2.2.0 新增 9 种标注方案、可插拔的导出系统、MACE 能力评估、55 个经过验证的调查量表以及远程数据源支持。

Potato Team·

Potato 2.2:事件、实体链接、导出和 55 个调查量表

我们很高兴地宣布 Potato 2.2.0 发布,这是一个重大功能版本,显著扩展了您可以标注的内容类型以及管理标注质量的方式。此次更新新增 9 种标注方案、可插拔的导出系统、MACE 能力评估、55 个经过验证的调查量表以及远程数据源支持。

新标注方案

事件标注

v2.2 的核心标注功能是 N 元事件标注。事件由触发词跨度(表示事件的词)和带有类型化语义角色的论元跨度组成。辐射状弧线可视化将触发词与其论元连接起来。

yaml
annotation_schemes:
  - annotation_type: event_annotation
    name: events
    span_schema: entities
    event_types:
      - type: "ATTACK"
        trigger_labels: ["EVENT_TRIGGER"]
        arguments:
          - role: "attacker"
            entity_types: ["PERSON", "ORGANIZATION"]
            required: true
          - role: "target"
            entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
            required: true

这为以前需要自定义工具的信息抽取、语义角色标注和知识图谱构建任务提供了支持。

阅读事件标注文档 →

实体链接

跨度标注现在可以链接到外部知识库。标注者高亮文本、分配标签,然后使用搜索模态框查找并链接匹配的 Wikidata、UMLS 或自定义知识库实体。

yaml
annotation_schemes:
  - annotation_type: span
    name: ner
    labels: [PERSON, ORGANIZATION, LOCATION]
    entity_linking:
      enabled: true
      knowledge_bases:
        - name: wikidata
          type: wikidata
          language: en

支持用于歧义实体的多选模式和在单个任务中使用多个知识库。

阅读实体链接文档 →

分类、成对比较、共指等更多功能

六种额外的标注类型完善了 v2.2 的方案新增:

  • 分类 — 用于快速数据筛选的接受/拒绝/跳过界面,支持自动前进和键盘快捷键
  • 成对比较 — 二元 A/B 或滑块比较,用于偏好学习和 RLHF 数据收集
  • 对话树 — 分层树形标注,支持逐节点评分和路径选择
  • 共指链 — 将共指提及分组为链,带有视觉指示器
  • 分割掩码 — 新的填充、橡皮擦和画笔工具,用于像素级图像标注
  • 不连续跨度allow_discontinuous: true 用于非连续文本选择

智能标注

MACE 能力评估

MACE 使用变分贝叶斯 EM 算法联合估计真实标签和标注者能力分数(0.0-1.0)。它可以识别可靠的标注者、检测垃圾标注者,并产生更高质量的预测标签。

yaml
mace:
  enabled: true
  trigger_every_n: 10
  min_annotations_per_item: 3

MACE 在后台自动运行,并与管理仪表盘和裁决系统集成。

阅读 MACE 文档 →

选项高亮

一项新的 AI 功能,分析内容以高亮显示离散标注任务中最可能正确的选项。前 k 个选项以完全不透明度显示并带有星号指示器,而不太可能的选项则变暗。

yaml
ai_support:
  option_highlighting:
    enabled: true
    top_k: 3
    dim_opacity: 0.4

阅读选项高亮文档 →

多样性排序

句子变换器嵌入将相似项目聚类在一起,然后循环采样从不同聚类中呈现项目。这减少了标注者疲劳并提高了主题空间的覆盖率。

yaml
assignment_strategy: diversity_clustering
diversity_ordering:
  enabled: true
  prefill_count: 100

阅读多样性排序文档 →

导出系统

新的导出 CLI(python -m potato.export)可以通过一条命令将标注转换为 6 种行业标准格式:

bash
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/

支持的格式:COCO、YOLO、Pascal VOC、CoNLL-2003、CoNLL-U 和分割掩码。系统可扩展 — 通过继承 BaseExporter 创建自定义导出器。

阅读导出格式文档 →

远程数据源

从 URL、S3、Google Drive、Dropbox、HuggingFace 数据集、Google Sheets 和 SQL 数据库加载标注数据:

yaml
data_sources:
  - type: huggingface
    dataset: "squad"
    split: "train"
 
  - type: s3
    bucket: "my-annotation-data"
    key: "datasets/items.jsonl"

包括大数据集的部分/增量加载、本地缓存以及使用环境变量的安全凭据管理。

阅读远程数据源文档 →

调查量表

55 个经过验证的问卷库,可在研究前和研究后阶段直接使用:

yaml
phases:
  prestudy:
    type: prestudy
    instrument: "tipi"      # 10-item personality questionnaire
 
  poststudy:
    type: poststudy
    instrument: "phq-9"     # 9-item depression screening

量表涵盖 8 个类别:人格(BFI-2、TIPI)、心理健康(PHQ-9、GAD-7)、情感(PANAS)、自我概念(RSE)、社会态度(SDO-7、MFQ)、回答风格、简短版本,以及来自主要调查(ANES、GSS、ESS)的人口统计问卷。

阅读调查量表文档 →

用户体验改进

  • 带有关键帧插值的视频目标跟踪
  • PDF 页面上的边界框标注
  • 外部 AI 配置文件支持
  • 表单布局网格改进

升级到 v2.2

bash
pip install --upgrade potato-annotation

现有的 v2.0 和 v2.1 配置无需修改即可使用 — 所有新功能都通过额外的配置块选择性启用。

开始使用


有问题或反馈?加入我们的 Discord 或在 GitHub 上提交 issue。