Potato 2.2:事件、实体链接、导出和 55 个调查量表
Potato 2.2.0 新增 9 种标注方案、可插拔的导出系统、MACE 能力评估、55 个经过验证的调查量表以及远程数据源支持。
Potato 2.2:事件、实体链接、导出和 55 个调查量表
我们很高兴地宣布 Potato 2.2.0 发布,这是一个重大功能版本,显著扩展了您可以标注的内容类型以及管理标注质量的方式。此次更新新增 9 种标注方案、可插拔的导出系统、MACE 能力评估、55 个经过验证的调查量表以及远程数据源支持。
新标注方案
事件标注
v2.2 的核心标注功能是 N 元事件标注。事件由触发词跨度(表示事件的词)和带有类型化语义角色的论元跨度组成。辐射状弧线可视化将触发词与其论元连接起来。
annotation_schemes:
- annotation_type: event_annotation
name: events
span_schema: entities
event_types:
- type: "ATTACK"
trigger_labels: ["EVENT_TRIGGER"]
arguments:
- role: "attacker"
entity_types: ["PERSON", "ORGANIZATION"]
required: true
- role: "target"
entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
required: true这为以前需要自定义工具的信息抽取、语义角色标注和知识图谱构建任务提供了支持。
实体链接
跨度标注现在可以链接到外部知识库。标注者高亮文本、分配标签,然后使用搜索模态框查找并链接匹配的 Wikidata、UMLS 或自定义知识库实体。
annotation_schemes:
- annotation_type: span
name: ner
labels: [PERSON, ORGANIZATION, LOCATION]
entity_linking:
enabled: true
knowledge_bases:
- name: wikidata
type: wikidata
language: en支持用于歧义实体的多选模式和在单个任务中使用多个知识库。
分类、成对比较、共指等更多功能
六种额外的标注类型完善了 v2.2 的方案新增:
- 分类 — 用于快速数据筛选的接受/拒绝/跳过界面,支持自动前进和键盘快捷键
- 成对比较 — 二元 A/B 或滑块比较,用于偏好学习和 RLHF 数据收集
- 对话树 — 分层树形标注,支持逐节点评分和路径选择
- 共指链 — 将共指提及分组为链,带有视觉指示器
- 分割掩码 — 新的填充、橡皮擦和画笔工具,用于像素级图像标注
- 不连续跨度 —
allow_discontinuous: true用于非连续文本选择
智能标注
MACE 能力评估
MACE 使用变分贝叶斯 EM 算法联合估计真实标签和标注者能力分数(0.0-1.0)。它可以识别可靠的标注者、检测垃圾标注者,并产生更高质量的预测标签。
mace:
enabled: true
trigger_every_n: 10
min_annotations_per_item: 3MACE 在后台自动运行,并与管理仪表盘和裁决系统集成。
选项高亮
一项新的 AI 功能,分析内容以高亮显示离散标注任务中最可能正确的选项。前 k 个选项以完全不透明度显示并带有星号指示器,而不太可能的选项则变暗。
ai_support:
option_highlighting:
enabled: true
top_k: 3
dim_opacity: 0.4多样性排序
句子变换器嵌入将相似项目聚类在一起,然后循环采样从不同聚类中呈现项目。这减少了标注者疲劳并提高了主题空间的覆盖率。
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100导出系统
新的导出 CLI(python -m potato.export)可以通过一条命令将标注转换为 6 种行业标准格式:
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/支持的格式:COCO、YOLO、Pascal VOC、CoNLL-2003、CoNLL-U 和分割掩码。系统可扩展 — 通过继承 BaseExporter 创建自定义导出器。
远程数据源
从 URL、S3、Google Drive、Dropbox、HuggingFace 数据集、Google Sheets 和 SQL 数据库加载标注数据:
data_sources:
- type: huggingface
dataset: "squad"
split: "train"
- type: s3
bucket: "my-annotation-data"
key: "datasets/items.jsonl"包括大数据集的部分/增量加载、本地缓存以及使用环境变量的安全凭据管理。
调查量表
55 个经过验证的问卷库,可在研究前和研究后阶段直接使用:
phases:
prestudy:
type: prestudy
instrument: "tipi" # 10-item personality questionnaire
poststudy:
type: poststudy
instrument: "phq-9" # 9-item depression screening量表涵盖 8 个类别:人格(BFI-2、TIPI)、心理健康(PHQ-9、GAD-7)、情感(PANAS)、自我概念(RSE)、社会态度(SDO-7、MFQ)、回答风格、简短版本,以及来自主要调查(ANES、GSS、ESS)的人口统计问卷。
用户体验改进
- 带有关键帧插值的视频目标跟踪
- PDF 页面上的边界框标注
- 外部 AI 配置文件支持
- 表单布局网格改进
升级到 v2.2
pip install --upgrade potato-annotation现有的 v2.0 和 v2.1 配置无需修改即可使用 — 所有新功能都通过额外的配置块选择性启用。