Question 1

什么是数据标注？

Accepted Answer

数据标注是为原始数据（如文本、图像、音频、视频或模型输出）添加标签的过程，使这些数据可用于训练或评估机器学习模型。标签可以是一个类别、一段高亮文本、一个评分或一次对比。Potato 让你只需一份简短的 YAML 配置，就能搭建上述任意一种任务类型。

Question 2

什么是标注者间一致性？

Accepted Answer

标注者间一致性衡量的是相互独立的标注者对同一条数据给出相同标签的频率。它是判断任务定义是否清晰、标签是否可靠的标准依据。常用的指标有 Cohen's kappa、Fleiss' kappa 和 Krippendorff's alpha，它们都会对偶然达成的一致进行校正。Potato 会在其管理后台中报告 Krippendorff's alpha。

Question 3

最好的免费标注工具是哪个？

Accepted Answer

这取决于你的数据和目标，因此并没有唯一的答案。如果你的工作横跨文本、图像、音频以及 AI 智能体评估，那么 Potato 是一个出色的免费开源选择，它提供 50 多种任务类型和零代码的 YAML 配置方式。Label Studio、Doccano、brat 和 Argilla 也是各具特长的开源选择。

Question 4

我该如何为机器学习标注数据？

Accepted Answer

首先定义任务和标签集，然后编写清晰的标注规范，并让多名标注者对相互重叠的数据进行标注。衡量一致性、解决分歧，再以训练流程能够读取的格式导出结果。Potato 覆盖了整个工作流程，并可导出为 JSON、CoNLL、Hugging Face、spaCy 以及 COCO/YOLO 格式。

Question 5

每条数据需要多少名标注者？

Accepted Answer

清晰、客观的任务通常只需一名标注者，再加上一小部分重叠样本用于质量检查即可。中等主观程度的任务通常采用三名标注者，并以多数投票来裁定。高度主观的任务则使用五名或更多标注者，有时还会保留全部意见，而不是归并为单一答案。超过三名标注者后，收益会迅速递减。

Question 6

数据标注中的主动学习是什么？

Accepted Answer

主动学习会挑选接下来要标注的数据，使模型用比随机抽样更少的标签就能达到目标准确率。模型会标记出它认为信息量最大的数据，通常是它最不确定的那些，然后由人来标注它们。Potato 支持不确定性、多样性、BADGE 和 BALD 等策略。

Question 7

分类标注与文本片段标注有什么区别？

Accepted Answer

分类是为整条数据赋予一个或多个标签，例如把一条评论标记为正面或负面。片段标注则标记数据内部的某个区域，例如高亮句子中的人名，或音频波形中的某个事件。命名实体识别和错误标记都属于片段任务。Potato 同时支持这两种方式，而且你可以在同一个界面上将它们组合使用。

Question 8

我该如何评估 LLM 或 AI 智能体的输出？

Accepted Answer

让人来评判这些输出：在量表上打分、并排比较两个结果、对照评分细则打分，或用片段标记出具体的错误。对于需要多步操作的智能体，你还可以评判其执行轨迹中的每一步。Potato 提供了上述所有方式，并能读取 OpenAI、Anthropic 和 ReAct 等格式的智能体轨迹。

数据标注概念

数据标注概念

还有其他问题？