面向标注研究的经过验证的调查量表:人格、情绪、身心健康与人口统计
当谁来标注很重要时,一份经过验证的问卷胜过一道你自己凭空写出的题目。这是对 Potato 内置的 55 份调查量表的一次巡礼,以及每一份何时值得进入你的研究。
一旦你接受了做标注的人塑造着标签这一点,下一个问题就是要测量他们的什么。年龄和受教育程度是显而易见的起点,但对主观任务来说,有意思的预测变量往往更遥远一些:人格、价值观、当天的心情、对被评判之物的亲身经历。诱惑在于随手写几道题就往下走。这通常是个错误,因为你自己凭空写出的题目没有既往记录,没有可比对照组,而且常常带着一处细微的措辞缺陷,直到分析阶段你才会注意到。
当你想测量标注员身上的某样东西时,先去找一份经过验证的调查量表,而不是自己动笔。像 Big Five(大五人格)、PANAS(正负性情绪量表)或一套标准的人口统计题组这样的量表,自带经过检验的措辞、已知的信度,以及与大量既往工作可比的结果,这些都是临时自拟的问题给不了你的。Potato 内置了 55 份,只要一行配置,就能用在前置调查或后置调查阶段。只采集你会拿来分析的东西,把心理健康筛查量表当作敏感数据对待,并取得知情同意。 这篇文章带你巡览这个量表库里有什么,以及其中每一部分何时值得占据一席之地。
为什么不干脆自己出题
一份经过验证的量表,是研究者已经检验过其信度(能否给出一致的结果?)和效度(是否测量了它所声称的东西?)的问卷,通常跨越大样本和许多项研究。借用一份现成的,能买到自制题目给不了的三样东西:已经检查过歧义与偏差的措辞、带有已发表常模的计分方法,以及可比性,因为你的数字能和其他所有用过同一份量表的人对得上。
自己动手的代价会在后面显现。一道选项设错的性别题、一把带着细微引导性的满意度量表、一道有一半标注员理解得不一样的人格题:每一项都悄悄加进你无法与信号分离的噪声或偏差。量表的作者们已经替你付过这笔代价,好让你不必再付。
你可能测量什么,以及它为何会显现在标签里
不是每样东西都适合进入每一项研究。要让量表对应上它对你任务的一个说得通的影响。
- 人口统计:是谁在标注。 人口统计题组(ANES、GSS、ACS 等)用标准化的措辞采集年龄、种族、受教育程度等等。在冒犯性、毒性和礼貌度这类任务上,这些是背后证据最充分的预测变量。
- 人格与价值观:一个人如何评判。 Big Five(Soto and John, 2017)及其超简版表亲十项人格量表(Ten-Item Personality Inventory,Gosling et al., 2003)采集能够塑造主观评分的稳定倾向。道德基础问卷(Moral Foundations Questionnaire,Graham et al., 2011)在标签本身就是道德判断时是天然的选择,因为它测量的正是驱动这些判断的道德直觉。
- 情绪:标注当下的心情。 PANAS(Watson et al., 1988)测量正性和负性情绪状态。把它放在后置调查阶段跑一次,你就能查看心情是否与评分同步变化,这对情绪负荷较重的内容很重要。
- 亲身经历:评判的立场。 日常歧视量表(Everyday Discrimination Scale,Williams et al., 1997)测量日常经历到的歧视。对于涉及针对某个群体的冒犯性或仇恨的任务,一个标注员是否亲身经历过,很可能与他如何解读这些内容相关。
- 身心健康:保护标注员。 像 PHQ-9(Kroenke et al., 2001)和 GAD-7 这样的筛查量表,根本不是冲着标签去的。在带有有害或令人不安内容的项目上,一次轻量的身心健康检查能帮你察觉压力,前提是你以这些回答所要求的谨慎去处理它们。
这个含 55 份量表的库,按类别分组,并高亮出与标注相关的那些
需要留意的地方:敏感性、负担与知情同意
测量你的标注员并非没有风险,而这些类别里有两个分量很重。
心理健康筛查量表属于敏感的个人数据。一个 PHQ-9 分数不是诊断,绝不应被当作诊断,也不应被用来把某人排除在工作之外。如果你要跑一次,就说清楚为什么,保持它可选,把它和任何可识别身份的信息分开存放,并在采集之前就想好一个令人担忧的分数意味着什么、该怎么办。拿不准时,这是一场该和伦理委员会谈的对话。
长度本身就是一种税。Big Five Inventory-2(BFI-2)有 60 道题;一整摞题组叠起来可能比标注本身还耗时。每多一道题都要付出完成率和注意力的代价,所以除非你确实需要长版本,否则就靠简版(10 项的 TIPI、2 项的 PHQ-2),并砍掉任何你实际不会去分析的东西。和人口统计一样,规则仍然成立:如果没有一个你打算用它来跑的比对,它就不该上表。
在 Potato 里怎么做
Potato 内置一个含 55 份经过验证的量表的库,覆盖人格、心理健康、情绪、社会与政治态度,以及八套人口统计题组,全部记录在调查量表里。这些问卷你不必自己搭建;你只需点它们的名字。
在前置调查或后置调查阶段按 ID 引用一份量表:
phases:
order: [consent, prestudy, annotation, poststudy]
prestudy:
type: prestudy
instrument: "tipi" # 10-item Big Five
poststudy:
type: poststudy
instrument: "panas" # affect, measured after the task用 instruments: 叠加几份,并在一套题组后面附上你自己的、针对本研究的题目:
phases:
prestudy:
type: prestudy
instruments:
- "gss-demographics" # standardized demographics
- "srh" # single self-rated health item
file: "surveys/study_specific.json" # appended after the instruments每份量表都带着它的计分元数据(方法、反向计分的题项、取值范围和分界点),不过 Potato 把计分留给你的分析,而不是替你算出来,对于任何临床性质的东西,这才是正确的选择。含知情同意的人口统计展示把整个流程串在一起:一道知情同意关卡、一套放在前置调查阶段的标准化人口统计题组,以及一个主观评分任务,好让标注员背景落在标签旁边,你就能在那里分析它。
接下来读什么
- 《负责任地采集标注员的人口统计信息》,讲如何把人口统计题组做对。
- 《分歧是信号,不是噪声》,讲为什么标签里的人格与价值观差异往往正是你想要的。
- 《记录你的标注数据集》,讲如何报告你测量了标注员的哪些东西。
- 调查量表,全部 55 份的完整清单,附 ID 和题项数。