一旦你接受了做标注的人塑造着标签这一点，下一个问题就是要测量他们的什么。年龄和受教育程度是显而易见的起点，但对主观任务来说，有意思的预测变量往往更遥远一些：人格、价值观、当天的心情、对被评判之物的亲身经历。诱惑在于随手写几道题就往下走。这通常是个错误，因为你自己凭空写出的题目没有既往记录，没有可比对照组，而且常常带着一处细微的措辞缺陷，直到分析阶段你才会注意到。

当你想测量标注员身上的某样东西时，先去找一份经过验证的调查量表，而不是自己动笔。像 Big Five（大五人格）、PANAS（正负性情绪量表）或一套标准的人口统计题组这样的量表，自带经过检验的措辞、已知的信度，以及与大量既往工作可比的结果，这些都是临时自拟的问题给不了你的。Potato 内置了 55 份，只要一行配置，就能用在前置调查或后置调查阶段。只采集你会拿来分析的东西，把心理健康筛查量表当作敏感数据对待，并取得知情同意。这篇文章带你巡览这个量表库里有什么，以及其中每一部分何时值得占据一席之地。

为什么不干脆自己出题

一份经过验证的量表，是研究者已经检验过其信度（能否给出一致的结果？）和效度（是否测量了它所声称的东西？）的问卷，通常跨越大样本和许多项研究。借用一份现成的，能买到自制题目给不了的三样东西：已经检查过歧义与偏差的措辞、带有已发表常模的计分方法，以及可比性，因为你的数字能和其他所有用过同一份量表的人对得上。

自己动手的代价会在后面显现。一道选项设错的性别题、一把带着细微引导性的满意度量表、一道有一半标注员理解得不一样的人格题：每一项都悄悄加进你无法与信号分离的噪声或偏差。量表的作者们已经替你付过这笔代价，好让你不必再付。

你可能测量什么，以及它为何会显现在标签里

不是每样东西都适合进入每一项研究。要让量表对应上它对你任务的一个说得通的影响。

人口统计：是谁在标注。 人口统计题组（ANES、GSS、ACS 等）用标准化的措辞采集年龄、种族、受教育程度等等。在冒犯性、毒性和礼貌度这类任务上，这些是背后证据最充分的预测变量。
人格与价值观：一个人如何评判。 Big Five（Soto and John, 2017）及其超简版表亲十项人格量表（Ten-Item Personality Inventory，Gosling et al., 2003）采集能够塑造主观评分的稳定倾向。道德基础问卷（Moral Foundations Questionnaire，Graham et al., 2011）在标签本身就是道德判断时是天然的选择，因为它测量的正是驱动这些判断的道德直觉。
情绪：标注当下的心情。 PANAS（Watson et al., 1988）测量正性和负性情绪状态。把它放在后置调查阶段跑一次，你就能查看心情是否与评分同步变化，这对情绪负荷较重的内容很重要。
亲身经历：评判的立场。 日常歧视量表（Everyday Discrimination Scale，Williams et al., 1997）测量日常经历到的歧视。对于涉及针对某个群体的冒犯性或仇恨的任务，一个标注员是否亲身经历过，很可能与他如何解读这些内容相关。
身心健康：保护标注员。 像 PHQ-9（Kroenke et al., 2001）和 GAD-7 这样的筛查量表，根本不是冲着标签去的。在带有有害或令人不安内容的项目上，一次轻量的身心健康检查能帮你察觉压力，前提是你以这些回答所要求的谨慎去处理它们。

Potato 的调查量表库，分成八个类别：人口统计题组、人格、心理健康与身心健康、情绪、社会与政治态度、自我概念与社会、作答倾向，以及简版，每个类别都给出示例量表，并高亮出与标注研究最相关的那些。这个含 55 份量表的库，按类别分组，并高亮出与标注相关的那些

需要留意的地方：敏感性、负担与知情同意

测量你的标注员并非没有风险，而这些类别里有两个分量很重。

心理健康筛查量表属于敏感的个人数据。一个 PHQ-9 分数不是诊断，绝不应被当作诊断，也不应被用来把某人排除在工作之外。如果你要跑一次，就说清楚为什么，保持它可选，把它和任何可识别身份的信息分开存放，并在采集之前就想好一个令人担忧的分数意味着什么、该怎么办。拿不准时，这是一场该和伦理委员会谈的对话。

长度本身就是一种税。Big Five Inventory-2（BFI-2）有 60 道题；一整摞题组叠起来可能比标注本身还耗时。每多一道题都要付出完成率和注意力的代价，所以除非你确实需要长版本，否则就靠简版（10 项的 TIPI、2 项的 PHQ-2），并砍掉任何你实际不会去分析的东西。和人口统计一样，规则仍然成立：如果没有一个你打算用它来跑的比对，它就不该上表。

在 Potato 里怎么做

Potato 内置一个含 55 份经过验证的量表的库，覆盖人格、心理健康、情绪、社会与政治态度，以及八套人口统计题组，全部记录在调查量表里。这些问卷你不必自己搭建；你只需点它们的名字。

在前置调查或后置调查阶段按 ID 引用一份量表：

yaml

phases:
  order: [consent, prestudy, annotation, poststudy]
 
  prestudy:
    type: prestudy
    instrument: "tipi"          # 10-item Big Five
 
  poststudy:
    type: poststudy
    instrument: "panas"         # affect, measured after the task

用 instruments: 叠加几份，并在一套题组后面附上你自己的、针对本研究的题目：

yaml

phases:
  prestudy:
    type: prestudy
    instruments:
      - "gss-demographics"      # standardized demographics
      - "srh"                   # single self-rated health item
    file: "surveys/study_specific.json"   # appended after the instruments

每份量表都带着它的计分元数据（方法、反向计分的题项、取值范围和分界点），不过 Potato 把计分留给你的分析，而不是替你算出来，对于任何临床性质的东西，这才是正确的选择。含知情同意的人口统计展示把整个流程串在一起：一道知情同意关卡、一套放在前置调查阶段的标准化人口统计题组，以及一个主观评分任务，好让标注员背景落在标签旁边，你就能在那里分析它。

接下来读什么

《负责任地采集标注员的人口统计信息》，讲如何把人口统计题组做对。
《分歧是信号，不是噪声》，讲为什么标签里的人格与价值观差异往往正是你想要的。
《记录你的标注数据集》，讲如何报告你测量了标注员的哪些东西。
调查量表，全部 55 份的完整清单，附 ID 和题项数。