评分量表

如何为标注设计评分量表：Likert 与滑块的对比、应设多少个刻度、如何规避默许偏差，以及如何在 Potato 中搭建评分任务。

评分量表捕捉的是程度——有多正面、多流畅、多有用——而非某个类别。常见的两种形式是离散的 Likert 量表（例如 1–5）和连续的滑块。 量表上一些看似微小的设计选择，对数据的影响往往超出人们的预期。

Likert：离散刻度

当你希望得到便于比较、易于汇总的评分时，使用 Likert 量表：

yaml

annotation_schemes:
  - annotation_type: likert
    name: fluency
    description: "How fluent is this translation?"
    size: 5
    min_label: "Not fluent at all"
    max_label: "Perfectly fluent"

需要权衡的设计决策：

用多少个刻度？ 五个是稳妥的默认值。若标注者用得上，七个能提供更高的分辨率。偶数刻度去掉了中间的中立选项，迫使标注者表态——当"中立"沦为敷衍时很有用，但当中立确实存在时则有风险。
标注两端，最好每个刻度都标注。 带标签的刻度比单纯的数字解读得更一致。
保持方向一致，让所有量表的方向统一，标注者就不会因习惯而把它们弄反。

滑块：连续取值

当底层数量确实是连续的时——比如置信度百分比或情绪强度——使用 slider：

yaml

annotation_schemes:
  - annotation_type: slider
    name: confidence
    description: "How confident are you in your label?"
    min: 0
    max: 100
    step: 1
    min_label: "Guessing"
    max_label: "Certain"

连续量表带来更高的分辨率，但一致性更低，因为人们对"67 还是 72"并没有共通的细粒度判断。如果你需要一致性，就把输出分箱。

需要在设计上规避的偏差

默许偏差：倾向于表示同意。穿插一些反向措辞的题目，让"同意"不再是默认答案。参见默许偏差。
集中趋势：扎堆选中间。清晰的端点标签，以及在合适时采用偶数刻度，都能抵消这一倾向。
锚定效应：开头的几个条目会设定一个参照点。在开始处放一小组校准题会有帮助。

超越单一量表

用 multirate 在同一量表上一次性给多个条目评分（例如每篇检索到的文档）。参见 RAG 评估。
用 rubric_eval 对多项加权标准打分。参见基于评分表的 LLM 评估。
音频质量评分，如 MOS，采用的就是同一套 Likert 机制，参见音频标注。

评分量表

Likert：离散刻度

滑块：连续取值

需要在设计上规避的偏差

超越单一量表

延伸阅读