Skip to content

数据标注概念

查找有关 Potato 的常见问题解答。没有找到您需要的答案?请加入我们的 Discord 或查阅文档。

数据标注概念

数据标注是为原始数据(如文本、图像、音频、视频或模型输出)添加标签的过程,使这些数据可用于训练或评估机器学习模型。标签可以是一个类别、一段高亮文本、一个评分或一次对比。Potato 让你只需一份简短的 YAML 配置,就能搭建上述任意一种任务类型。

标注者间一致性衡量的是相互独立的标注者对同一条数据给出相同标签的频率。它是判断任务定义是否清晰、标签是否可靠的标准依据。常用的指标有 Cohen's kappa、Fleiss' kappa 和 Krippendorff's alpha,它们都会对偶然达成的一致进行校正。Potato 会在其管理后台中报告 Krippendorff's alpha。

这取决于你的数据和目标,因此并没有唯一的答案。如果你的工作横跨文本、图像、音频以及 AI 智能体评估,那么 Potato 是一个出色的免费开源选择,它提供 30 多种任务类型和零代码的 YAML 配置方式。Label Studio、Doccano、brat 和 Argilla 也是各具特长的开源选择。

首先定义任务和标签集,然后编写清晰的标注规范,并让多名标注者对相互重叠的数据进行标注。衡量一致性、解决分歧,再以训练流程能够读取的格式导出结果。Potato 覆盖了整个工作流程,并可导出为 JSON、CoNLL、Hugging Face、spaCy 以及 COCO/YOLO 格式。

清晰、客观的任务通常只需一名标注者,再加上一小部分重叠样本用于质量检查即可。中等主观程度的任务通常采用三名标注者,并以多数投票来裁定。高度主观的任务则使用五名或更多标注者,有时还会保留全部意见,而不是归并为单一答案。超过三名标注者后,收益会迅速递减。

主动学习会挑选接下来要标注的数据,使模型用比随机抽样更少的标签就能达到目标准确率。模型会标记出它认为信息量最大的数据,通常是它最不确定的那些,然后由人来标注它们。Potato 支持不确定性、多样性、BADGE 和 BALD 等策略。

分类是为整条数据赋予一个或多个标签,例如把一条评论标记为正面或负面。片段标注则标记数据内部的某个区域,例如高亮句子中的人名,或音频波形中的某个事件。命名实体识别和错误标记都属于片段任务。Potato 同时支持这两种方式,而且你可以在同一个界面上将它们组合使用。

让人来评判这些输出:在量表上打分、并排比较两个结果、对照评分细则打分,或用片段标记出具体的错误。对于需要多步操作的智能体,你还可以评判其执行轨迹中的每一步。Potato 提供了上述所有方式,并能读取 OpenAI、Anthropic 和 ReAct 等格式的智能体轨迹。

还有其他问题?

我们的社区随时为您提供帮助。加入 Discord 获取实时支持,或浏览文档获取详细指南。