Skip to content
Guides1 min read

LLM 标注员对比人工:什么时候该把标注任务交给机器,什么时候不该

一份实用指南,帮你判断何时可以让 LLM 标注你的数据、模型标注员会在哪里失手,以及如何在 Potato 里把自动化与人工核验结合起来。

Potato Team

如今每个标注项目都会碰到这个问题:这件事我们还需要人吗,还是让模型直接做?这是个合理的问题。LLM 标注员快、不知疲倦,成本只有众包的一个零头。诚实的回答是:它取决于任务,而且以你实际能预判的方式取决于任务;出问题的项目,通常正是那些从没核对过的。

当任务定义清晰、标签客观、并且你能拿一份人工黄金样本来衡量它时,LLM 是个好标注员。当标签主观、带有文化包袱,或者新到还没有任何标准答案时,它就是个差标注员。稳妥的默认做法是:把模型能可靠完成的自动化,其余的抽一份样本核验,难的留给人。 这篇文章讲的就是如何把这几类分辨开。

诚实的回答:取决于任务

研究并没有说「LLM 取代标注员」或「LLM 不能标注」。它说的更有用,是表现按任务类型分化。Gilardi、Alizadeh 和 Kubli(2023)发现 ChatGPT 在相关性、立场和框架检测上胜过众包工人,一致性更高、成本近乎为零。但 Ziems 等人(2024)在 25 个计算社会科学基准上测了 13 个模型,画面并不整齐:在分类任务上 LLM 与人工只达到中等一致,也很少胜过一个微调模型;而在自由形式的解释上,它们产出的内容往往读起来比众包的参考答案还好。

所以「LLM 能标这个吗?」其实是两个问题。这是模型擅长的那类任务吗?以及在我的具体数据上,模型真的和人一致吗?第一个你可以从任务类型来推断,第二个你必须测量。

LLM 标注员会在哪里失手

这些失手并不随机。它们成簇出现,也就意味着你可以预判。

  • 主观与文化性标签。 毒性、冒犯、幽默、礼貌、道德判断,都取决于是谁在读。单一模型给出一个被压平的答案,而一个多元的标注员群体本会以富含信息的方式产生分歧——而那种分歧往往正是你想要的信号。
  • 比较中的系统性偏差。 当 LLM 评判两个回答时,它并不是中立的裁判。Zheng 等人(2023)记录了位置偏差(它偏爱先出现的选项)、冗长偏差(它奖励更长的回答)和自我增强偏差(它偏爱自己风格的文本)。这些偏差是一致的,因此会把你整份数据集朝一个方向推,而不是添加噪声。
  • 还没有标准答案。 如果你在构建一套全新的编码方案,就没有任何东西能用来验证模型,而一个自信的错标比一处诚实的空白更糟。新方案需要人工编码员先上,哪怕只是为了造出黄金集。
  • 悄然漂移。 模型的行为会在长语料上、以及跨版本地发生变化。没有一份你反复对照的固定黄金样本,你不会察觉标签分布正在你脚下移动。

这些都不意味着「永远别用模型」。它们意味着模型的输出是一份有力的初稿,而不是最终标签。

行之有效的模式

行之有效的做法不是全模型或全人工,而是一种分流:把每个条目送进与其难度相称的通道。

一个决策流,把条目分入三条通道:客观、一致性高的自动化,一致性中等的抽查核验,主观或高风险的交给人工标注员。自动化模型擅长的,抽查核验其余的,难的留给人

先在一份带标签的黄金样本上跑模型,逐标签地看一致性,而不只看整体。它和人一致的地方,让它承担那些条目并抽查一部分;一致性居中的地方,保留模型的建议但让人逐条确认;标签主观或决定高风险的地方,留给人工标注员,模型至多作为提示。这些比例会随项目推进而变化——你会逐渐摸清模型在哪里可信——但形状不变。

有一条护栏自始至终都重要:留一份模型永远碰不到的、纯人工的盲测切片。那是你的标尺。没有它,自动化偏见就会滋生,核对者给看似合理的建议盖章放行,于是你测出的一致性向上漂移,而真实质量并没有。

成本和质量不是同一个维度

人们很容易把这框成「便宜的模型对昂贵的人」,但这掩盖了真正的取舍。一个模型标签几乎不花什么就能产出,要信任它却要花实打实的代价:你为验证它而造的黄金集、那一遍人工核验、那些抽查。一个人工标签前期花得多,信任它却花得少。对一个大而客观的任务,一旦验证成本被摊薄,模型在总成本上胜出;对一个小或主观的任务,验证的开销可能比直接让人来标还贵。别假设模型更便宜,就你的任务算一算账。

在 Potato 里怎么做

Potato 就是为跑这种混合流程而造的,而不是逼你在全有或全无之间选。打开 AI 支持让模型做预标注,再让人核验:

yaml
ai_support:
  enabled: true
  endpoint_type: openai       # or anthropic, gemini, ollama, ...
  ai_config:
    model: gpt-4
    api_key: ${OPENAI_API_KEY}
    temperature: 0.2

模型提出一个标签;标注员确认或纠正,被核验过的那个标签才会被保存。至于分流本身,一个分诊(triage)方案能让人飞快地过一遍模型建议,留下明确的,把其余的标记出来做更细的标注。

要衡量模型对人工,不要给你留作测一致性的条目做预填。留一份盲测切片,让人来标,再用 Cohen 或 Fleiss 的 kappa 比较。那个数字——逐标签地看——就决定了你任务的每一部分归入哪条通道。预标注指南更详细地讲了防自动化偏见的护栏。

继续阅读