如今每个标注项目都会碰到这个问题：这件事我们还需要人吗，还是让模型直接做？这是个合理的问题。LLM 标注员快、不知疲倦，成本只有众包的一个零头。诚实的回答是：它取决于任务，而且以你实际能预判的方式取决于任务；出问题的项目，通常正是那些从没核对过的。

当任务定义清晰、标签客观、并且你能拿一份人工黄金样本来衡量它时，LLM 是个好标注员。当标签主观、带有文化包袱，或者新到还没有任何标准答案时，它就是个差标注员。稳妥的默认做法是：把模型能可靠完成的自动化，其余的抽一份样本核验，难的留给人。这篇文章讲的就是如何把这几类分辨开。

诚实的回答：取决于任务

研究并没有说「LLM 取代标注员」或「LLM 不能标注」。它说的更有用，是表现按任务类型分化。Gilardi、Alizadeh 和 Kubli（2023）发现 ChatGPT 在相关性、立场和框架检测上胜过众包工人，一致性更高、成本近乎为零。但 Ziems 等人（2024）在 25 个计算社会科学基准上测了 13 个模型，画面并不整齐：在分类任务上 LLM 与人工只达到中等一致，也很少胜过一个微调模型；而在自由形式的解释上，它们产出的内容往往读起来比众包的参考答案还好。

所以「LLM 能标这个吗？」其实是两个问题。这是模型擅长的那类任务吗？以及在我的具体数据上，模型真的和人一致吗？第一个你可以从任务类型来推断，第二个你必须测量。

LLM 标注员会在哪里失手

这些失手并不随机。它们成簇出现，也就意味着你可以预判。

主观与文化性标签。 毒性、冒犯、幽默、礼貌、道德判断，都取决于是谁在读。单一模型给出一个被压平的答案，而一个多元的标注员群体本会以富含信息的方式产生分歧——而那种分歧往往正是你想要的信号。
比较中的系统性偏差。 当 LLM 评判两个回答时，它并不是中立的裁判。Zheng 等人（2023）记录了位置偏差（它偏爱先出现的选项）、冗长偏差（它奖励更长的回答）和自我增强偏差（它偏爱自己风格的文本）。这些偏差是一致的，因此会把你整份数据集朝一个方向推，而不是添加噪声。
还没有标准答案。 如果你在构建一套全新的编码方案，就没有任何东西能用来验证模型，而一个自信的错标比一处诚实的空白更糟。新方案需要人工编码员先上，哪怕只是为了造出黄金集。
悄然漂移。 模型的行为会在长语料上、以及跨版本地发生变化。没有一份你反复对照的固定黄金样本，你不会察觉标签分布正在你脚下移动。

这些都不意味着「永远别用模型」。它们意味着模型的输出是一份有力的初稿，而不是最终标签。

行之有效的模式

行之有效的做法不是全模型或全人工，而是一种分流：把每个条目送进与其难度相称的通道。

一个决策流，把条目分入三条通道：客观、一致性高的自动化，一致性中等的抽查核验，主观或高风险的交给人工标注员。自动化模型擅长的，抽查核验其余的，难的留给人

先在一份带标签的黄金样本上跑模型，逐标签地看一致性，而不只看整体。它和人一致的地方，让它承担那些条目并抽查一部分；一致性居中的地方，保留模型的建议但让人逐条确认；标签主观或决定高风险的地方，留给人工标注员，模型至多作为提示。这些比例会随项目推进而变化——你会逐渐摸清模型在哪里可信——但形状不变。

有一条护栏自始至终都重要：留一份模型永远碰不到的、纯人工的盲测切片。那是你的标尺。没有它，自动化偏见就会滋生，核对者给看似合理的建议盖章放行，于是你测出的一致性向上漂移，而真实质量并没有。

成本和质量不是同一个维度

人们很容易把这框成「便宜的模型对昂贵的人」，但这掩盖了真正的取舍。一个模型标签几乎不花什么就能产出，要信任它却要花实打实的代价：你为验证它而造的黄金集、那一遍人工核验、那些抽查。一个人工标签前期花得多，信任它却花得少。对一个大而客观的任务，一旦验证成本被摊薄，模型在总成本上胜出；对一个小或主观的任务，验证的开销可能比直接让人来标还贵。别假设模型更便宜，就你的任务算一算账。

在 Potato 里怎么做

Potato 就是为跑这种混合流程而造的，而不是逼你在全有或全无之间选。打开 AI 支持让模型做预标注，再让人核验：

yaml

ai_support:
  enabled: true
  endpoint_type: openai       # or anthropic, gemini, ollama, ...
  ai_config:
    model: gpt-4
    api_key: ${OPENAI_API_KEY}
    temperature: 0.2

模型提出一个标签；标注员确认或纠正，被核验过的那个标签才会被保存。至于分流本身，一个分诊（triage）方案能让人飞快地过一遍模型建议，留下明确的，把其余的标记出来做更细的标注。

要衡量模型对人工，不要给你留作测一致性的条目做预填。留一份盲测切片，让人来标，再用 Cohen 或 Fleiss 的 kappa 比较。那个数字——逐标签地看——就决定了你任务的每一部分归入哪条通道。预标注指南更详细地讲了防自动化偏见的护栏。

继续阅读

给 AI 标注员的码本，讲如何把编码方案变成 LLM 能运行的模型。
LLM 与视觉预标注，讲模型建议与核验的机制。
你能信任你的 LLM 评判吗？，讲如何用人工评分校准 LLM 评判。
标注中的主动学习，讲把人力花在最能教会模型的条目上。