任何规模较大的标注项目都存在一个普遍的矛盾。如果每个条目都由两到三名标注员处理，你可以衡量一致性并信任你的标签，但预算也随之翻了两到三倍。如果每个条目只由一名标注员处理，同样的钱能标注三倍的数据，可你却无从得知其中任何一条有多可靠。

凡是做过研究的人都熟悉那个惯常的折中方案：对语料库的大部分内容做单一标注，对一小部分样本做双重或三重标注以监控质量。难点一直在于让工具干净利落地实现这一点，并在拿到重叠数据后真正加以利用。Potato 2.6 通过两个配置块（num_annotators_per_item 和 per_annotator_quota），再加上自适应增强和仲裁路由，把这套设计内置了进来。

本文将带你从最简单的情形逐步走到自适应方案，完整讲解这套覆盖设计。完整参考请见异构覆盖文档。

默认单一覆盖、三名标注员的分层重叠样本、分歧时的自适应增强以及仲裁路由 Potato 中的自适应标注覆盖

带重叠样本的逐条目上限

num_annotators_per_item 既接受一个整数作为统一上限，也接受结构化映射，以便对不同条目采用不同的覆盖方式。常见的形式是默认为一名标注员，并对分层样本提高到三名：

yaml

num_annotators_per_item:
  default: 1
  overlap_sample:
    fraction: 0.1
    count: 3
    stratify_by: domain
    seed: 42
  min: 1

overlap_sample 块会在一个确定性的条目子集上提高上限。抽样在启动时执行一次，被选中的条目会在内部打上标记，此后分配逻辑便将其视为高覆盖条目。各字段含义直截了当：fraction 是抽样比例，count 是提高后的上限（必须大于默认值），seed 则让选择在重启之间可复现。

值得多花笔墨的细节是 stratify_by。将它指向数据中的某个字段（这里是 domain），抽样比例就会在每个层内应用，而不是在整个数据池上统一应用。每个类别都按比例贡献到重叠样本中，因此你不会在一个恰好 90% 来自单一领域的样本上衡量一致性。如果你的语料库混合了新闻、社交媒体和临床文本，那么每一类都会按其规模比例出现在质量样本中。

自适应增强：把投入花在难处

固定的重叠样本是盲选的，在任何人开始标注之前就确定了下来。但最需要第二、第三次审视的，恰恰是标注员真正产生分歧的那些条目，而你只有在第一轮之后才能知道它们是哪些。自适应增强正是为此而设：

yaml

num_annotators_per_item:
  default: 1
  adaptive:
    enabled: true
    disagreement_threshold: 0.5
    boost_to: 3

一旦某个条目获得了至少两份标注，且其分歧分数越过 disagreement_threshold，它的上限便会提升到 boost_to，该条目随即重新进入分配队列以接受又一轮处理。每个条目的增强只触发一次，因此有争议的条目只会被升级一次，而不会无休止地扩张。这种覆盖会随数据的难度而调整，而不是在一开始凭空猜测。

逐标注员配额

覆盖上限控制的是每个条目获得多少名标注员。另一个独立的配置块控制的是每名标注员获得多少个条目，你通常希望按专业水平或合同情况来调整这一点：

yaml

per_annotator_quota:
  default: 100
  by_user:
    alice: 30
  by_user_role:
    expert: 30
    novice: 200
 
user_roles:
  alice: expert
  carol: novice

解析按从最具体到最一般的顺序进行：先 by_user[uid]，再 by_user_role[user_roles[uid]]，最后是 default。因此你可以把某位特定专家的上限设为 30 个条目，把其他所有专家按角色设为 30，把新手设为 200，而这两套系统都不会干扰上面的逐条目上限。

把重叠转化为决策

收集重叠只是工作的一半，关键在于针对分歧采取行动。启用仲裁块后，达到覆盖上限的重叠样本条目会被自动评分，并在一致性低于你设定的阈值时被推入仲裁队列：

yaml

adjudication:
  enabled: true
  adjudicator_users: [admin]
  min_annotations: 2
  agreement_threshold: 0.75

其效果是，一致性低的条目会在样本饱和的那一刻浮现出来，而不必等到有人想起来手动重建队列。仲裁员打开队列，看到的便是真正存在争议的那些条目，它们已经从大家都达成一致的大批条目中筛选了出来。

解读一致性

一旦重叠样本条目饱和，一致性统计便可在 /admin/iaa 处查看。该端点会为每种方案的类型计算合适的指标，而不是用一个数字硬套所有情况：名义型方案用 Cohen's 和 Fleiss' kappa，有序型用 weighted kappa，而 span 则用词元级 kappa 加上 span F1。这一点很重要，因为如果把有序的 Likert 评分当作无序类别来计算 κ，会低估真实的一致性。

试用一下

发行版中附带了一个可运行的演示。在仓库根目录下：

bash

python potato/flask_server.py start examples/advanced/heterogeneous-coverage/config.yaml -p 8000

它使用横跨两个领域的 20 个条目，按领域分层抽取 20% 做三标注员重叠，在 0.5 阈值处启用自适应增强，定义两个专业层级，并把一致性低的条目路由到仲裁：完整呈现了上面那套设计，从头到尾。

一份好的覆盖方案的样子

把这些组合起来，这套设计让你能够决定标注预算花在哪里，而不是均匀地铺开。大多数条目只过一遍。分层切片中的一部分过三遍，这样你就能报告整个语料库的可靠性，而不只是其中一个角落。事后发现确实难的条目会被自动升级，有争议的则路由给仲裁员。你把最多的投入花在最不确定的数据上，并且能在方法部分为每一个覆盖决策辩护。

一项给定任务到底需要多少名标注员，这本身是另一个问题；你需要多少名标注员一文梳理了相关的经验法则。本次发行的重点在于，让你最终得出的任何答案都易于表达。异构覆盖随 Potato 2.6 一同发布；关于上述各配置块的全部能力，请参阅异构覆盖文档和任务分配参考。