Skip to content
Announcements1 min read

Potato 亮相 EMNLP 2022

我们关于 Potato 的论文被 EMNLP 2022 收录。了解该工具背后的研究以及如何在您的工作中引用它。

Potato Team·

Potato 亮相 EMNLP 2022

我们很自豪地宣布,我们介绍 Potato 的论文已被 EMNLP 2022 接收,这是自然语言处理领域的顶级会议之一。这一里程碑代表了多年来旨在让研究社区更方便地进行数据标注的研究和开发成果。

论文

"Potato: The Portable Text Annotation Tool" 介绍了 Potato 的设计理念、架构和功能。论文展示了配置优先的方法如何大幅降低创建高质量标注界面的门槛。

主要贡献

  1. 配置优先设计:我们展示了如何完全通过 YAML 配置来定义复杂的标注界面,在大多数使用场景中无需编写自定义代码。

  2. 灵活的标注方案:Potato 支持多种标注类型(单选按钮、复选框、跨度标注、Likert 量表等),可以组合创建复杂的标注任务。

  3. 内置质量控制:论文描述了我们通过培训阶段、注意力检查和标注者间一致性监控来管理标注者质量的方法。

  4. 众包集成:我们展示了与 Prolific 和 Amazon Mechanical Turk 等平台的无缝集成,用于大规模标注研究。

引用 Potato

如果您在研究中使用了 Potato,请引用我们的论文:

bibtex
@inproceedings{pei2022potato,
  title={Potato: The Portable Text Annotation Tool},
  author={Pei, Jiaxin and Anber, Aparna and Jurgens, David},
  booktitle={Proceedings of the 2022 Conference on Empirical Methods
             in Natural Language Processing: System Demonstrations},
  pages={327--337},
  year={2022}
}

我们为什么开发 Potato

开发 Potato 的动机来自我们作为 NLP 研究人员的切身困扰。每个新的标注项目似乎都需要:

  1. 学习一个包含我们不需要的功能的复杂标注平台
  2. 从头开始构建自定义界面
  3. 由于工具限制而在标注体验上做出妥协

我们想要一个:

  • 简单的工具:几分钟内就能上手,而不是几天
  • 灵活的工具:支持我们能想到的任何标注任务
  • 便携的工具:无需复杂基础设施即可在任何地方运行
  • 研究友好的工具:为学术工作流和可复现性而设计

影响力和采用

自发布以来,Potato 已被全球研究团队用于以下项目:

  • 情感分析和情绪检测
  • 命名实体识别和关系抽取
  • 内容审核和毒性检测
  • 论证挖掘和立场检测
  • 临床 NLP 和生物医学文本挖掘

展望未来

EMNLP 发表只是一个开始。此后,我们已经添加了:

  • 图像和音频标注支持
  • AI 驱动的标注辅助
  • 主动学习集成
  • 增强的协作功能

我们致力于根据社区反馈持续开发。如果您有功能需求或想法,请在我们的 GitHub 仓库上提交 issue。

致谢

感谢帮助塑造 Potato 的标注者、测试者和早期采用者。特别感谢密歇根大学对这项研究的支持,以及 EMNLP 审稿人提供的宝贵反馈。


ACL Anthology 上阅读完整论文或观看我们的演示视频