오픈소스 주석 도구 비교
오픈소스 데이터 주석 도구인 Potato, Label Studio, Prodigy, Doccano, brat, Argilla에 대한 솔직한 비교와 그 선택 방법을 다룹니다.
유일한 최고의 주석 도구란 없습니다. 올바른 선택은 다루는 모달리티, 예산, 에이전트/LLM 평가가 필요한지 여부, 그리고 얼마나 많은 설정 작업을 감내할 수 있는지에 따라 달라집니다. 이 가이드는 주요 오픈소스 선택지를 공정하게 비교해, 프로젝트에 맞는 것을 고를 수 있도록 합니다.
선택지 한눈에 보기
| 도구 | 라이선스 | 강점 | 적합한 경우 |
|---|---|---|---|
| Potato | 무료, 오픈소스(연구용) | 텍스트/이미지/오디오/비디오에 걸친 30가지 이상의 작업 유형, 에이전트 및 LLM 평가, 코드가 필요 없는 YAML, 내장 일치도 지표 | 연구, 에이전트/LLM 평가, 코드 없이 빠른 설정 |
| Label Studio | 오픈소스 + 유료 등급 | 폭넓은 모달리티 지원, 세련된 UI, 큰 생태계 | 상업적 지원을 받는 플랫폼을 원하는 팀 |
| Prodigy | 유료(상업용) | 스크립트 작성 가능, 능동 학습 우선, spaCy와의 긴밀한 통합 | 유료의 코드 중심 도구를 잘 다루는 spaCy 사용자 |
| Doccano | 오픈소스 | 단순하고 깔끔하며 자체 호스팅이 쉬움 | 단순한 텍스트 분류 및 NER |
| brat | 오픈소스 | 성숙한 리치 텍스트/관계 주석 | 엔티티와 관계의 언어학적 주석 |
| Argilla | 오픈소스 | LLM 데이터에 초점, Hugging Face와의 통합 | HF 스택에서의 피드백/RLHF 데이터 수집 |
(세부 사항은 시간이 지나며 바뀝니다. 현재의 라이선스와 기능은 각 프로젝트에서 확인합니다.)
선택하는 방법
- 무엇에 주석을 다는가? 텍스트 전용 NER이라면 Doccano나 brat이 단순합니다. 텍스트/이미지/오디오/비디오가 섞여 있다면 Potato와 Label Studio가 그 범위를 폭넓게 다룹니다.
- 에이전트나 LLM 평가가 필요한가? 바로 여기서 Potato가 남다릅니다. 다양한 형식의 에이전트 추적을 읽어 들이고, 궤적, 프로세스 보상, 웹 에이전트, 코딩 에이전트 평가를 위한 전용 도구를 갖추고 있습니다. 대부분의 범용 도구에는 이것이 없습니다.
- 예산. Potato, Label Studio(코어), Doccano, brat, Argilla는 무료이며 오픈소스입니다. Prodigy와 일부 Label Studio 등급은 유료입니다.
- 설정 부담. Potato는 YAML 파일로 설정하며 코드가 필요 없습니다. Prodigy는 코드 우선이고, 나머지는 그 중간에 있습니다.
- 생태계. Prodigy는 spaCy와, Argilla는 Hugging Face와 결합됩니다. Potato는 CoNLL, spaCy, Hugging Face, COCO/YOLO를 포함한 여러 ML 형식으로 내보냅니다.
Potato가 들어맞는 자리
Potato는 학술 NLP에서 출발했으며(EMNLP 2022와 HCOMP 2024에서 발표되었습니다), 연구 워크플로 전체를 위해 만들어졌습니다. 다양한 작업 유형, 곧바로 쓸 수 있는 품질 관리와 일치도 지표, 크라우드소싱 연동, 그리고 최근에는 충실한 AI 에이전트 평가 도구 모음을 갖추고 있습니다. 작업이 여러 모달리티에 걸쳐 있거나 LLM과 에이전트 평가를 포함한다면, 살펴볼 가치가 있습니다.
호스팅형 상업 제품으로 단일 텍스트 작업만 필요하거나, spaCy 또는 Hugging Face 안에서 모든 것이 완결된다면, 다른 도구 중 하나가 더 잘 맞을 수 있습니다. 작업에 맞는 도구를 선택합니다.