Skip to content
Guides1 min read

你究竟需要多少名标注者?

为标注项目确定标注者数量和重叠度:客观与主观任务的经验法则、覆盖与重叠之间的权衡,以及如何在 Potato 中进行设置。

Potato Team

"我需要多少名标注者?"是任何项目最先冒出来的问题之一,而诚实的答案是:这取决于三件事——任务有多清晰、你能花多少预算,以及你打算如何处理分歧。没有什么神奇的数字,但确实有一些不错的默认选择。

覆盖与重叠

每一份标注预算都要在两个相互竞争的目标之间分配。覆盖意味着标注更多不同的数据,每条标注一次。重叠意味着对同一批数据标注多次,以便你能衡量一致性并进行聚合。你无法同时把两者都做到最大。

一个行之有效的做法是:先对一小部分子集做完全重叠的标注,用来衡量一致性并确认任务定义清晰,然后在你信任它之后,对其余数据只做单人标注。这样你就能获得质量信号,而无需为所有数据都付出三倍的标注成本。

经验法则

对于类别清晰、一致性高的任务,让一名标注者处理大部分数据,再让两到三名标注者在 5% 到 10% 的样本上重叠标注,以监控质量。

对于中等主观程度的任务,每条数据使用三名标注者,并以多数投票或按能力加权的模型来裁定。

对于真正主观的工作,比如判断冒犯性、情绪或偏好,每条数据使用五名或更多标注者,并考虑保留标签的完整分布,而不是把它归并为单一答案。这种分歧往往是真实的信号,而非噪声。

更多的标注者能降低单条数据聚合标签的方差,但收益递减。从一名标注者增加到三名,其帮助远大于从七名增加到九名。

在 Potato 中设置重叠

Potato 的自动分配功能控制着每条数据由多少名标注者查看,以及数据如何在标注者之间分发。

yaml
automatic_assignment:
  on: true
  instance_per_annotator: 50     # items each person labels
  labels_per_instance: 3         # annotators per item (overlap)

人数无法替代质量控制

如果其中一些标注者并不可靠,增加人手也无济于事。把重叠标注与黄金标准数据和注意力检查结合起来,这样你就能在聚合之前对低质量的工作进行加权或剔除。完整的推理过程,请参见你需要多少名标注者?指南和标注者间一致性。有关实现细节,请参见源文档质量控制文档