Skip to content

分诊

接受/拒绝/跳过界面,用于快速数据筛选和过滤。

分诊

分诊标注方案提供 Prodigy 风格的二元接受/拒绝/跳过界面,针对快速数据筛选任务进行了优化。此方案非常适合过滤大型数据集、执行数据质量检查或任何需要快速二元决策的任务。

概述

分诊方案呈现三个大型、视觉上有区别的按钮:

  • 保留(绿色)- 接受该项目以纳入
  • 丢弃(红色)- 拒绝该项目
  • 不确定(灰色)- 不确定时跳过

启用自动推进(默认),标注者仅使用键盘快捷键即可每小时处理数百个项目。

快速入门

yaml
annotation_schemes:
  - annotation_type: triage
    name: data_quality
    description: Is this data sample suitable for training?
    auto_advance: true
    show_progress: true

配置选项

字段类型默认值描述
annotation_typestring必填必须为 "triage"
namestring必填此方案的唯一标识符
descriptionstring必填显示给标注者的说明
accept_labelstring"Keep"接受按钮的文本标签
reject_labelstring"Discard"拒绝按钮的文本标签
skip_labelstring"Unsure"跳过按钮的文本标签
auto_advancebooleantrue选择后自动移到下一项
show_progressbooleantrue在分诊组件中显示进度条
accept_keystring"1"接受的键盘快捷键
reject_keystring"2"拒绝的键盘快捷键
skip_keystring"3"跳过的键盘快捷键

示例

数据质量过滤

yaml
annotation_schemes:
  - annotation_type: triage
    name: quality_filter
    description: Is this text high quality and suitable for training?
    auto_advance: true

内容审核

yaml
annotation_schemes:
  - annotation_type: triage
    name: content_moderation
    description: Does this content violate community guidelines?
    accept_label: "Safe"
    reject_label: "Violates"
    skip_label: "Review Later"
    auto_advance: true

相关性过滤

yaml
annotation_schemes:
  - annotation_type: triage
    name: relevance
    description: Is this document relevant to the query?
    accept_label: "Relevant"
    reject_label: "Not Relevant"
    skip_label: "Partially Relevant"

与其他方案结合

分诊可以与其他标注类型结合使用,同时进行过滤和详细标注:

yaml
annotation_schemes:
  - annotation_type: triage
    name: include_item
    description: Should this item be included in the dataset?
    auto_advance: false  # Don't auto-advance when combined
 
  - annotation_type: radio
    name: category
    description: What category does this belong to?
    labels: ["News", "Opinion", "Review", "Other"]

键盘快捷键

按键操作
1保留(接受)
2丢弃(拒绝)
3不确定(跳过)

按键 1、2、3 在键盘上相邻,无需看键盘即可快速标注。

输出格式

json
{
  "data_quality": {
    "labels": {
      "decision": "accept"
    }
  }
}

可能的值:"accept""reject""skip"

最佳实践

  1. 高吞吐量任务使用自动推进 - 显著提高简单决策的吞吐量
  2. 复杂决策禁用自动推进 - 当标注者需要时间思考或进行额外标注时
  3. 提供清晰的描述 - 使分诊标准明确无歧义以确保标注一致性
  4. 使用有意义的标签 - 自定义标签以匹配您的具体使用场景
  5. 结合注意力检查 - 在众包中,插入已知项目以验证质量

延伸阅读

有关实现细节,请参阅源文档