Skip to content

머신러닝을 위한 어노테이션 내보내기

Potato 어노테이션을 ML에 바로 쓸 수 있는 형식인 JSON/JSONL, CoNLL, Hugging Face Datasets, spaCy, COCO, YOLO로 내보내는 방법과 각 형식의 용도를 설명합니다.

어노테이션의 목적은 대개 모델을 학습하거나 평가하는 것이므로 내보내기 형식이 중요합니다. Potato는 일반적인 JSON/JSONL/CSV뿐 아니라 학습 파이프라인이 곧바로 읽는 ML 전용 형식도 출력하므로 별도의 연결 코드가 필요 없습니다. 라벨링하기 전에 대상 형식을 정해 두면 데이터와 ID를 어떻게 구성할지 알 수 있습니다.

참고 자료는 내보내기 형식을 보시기 바랍니다.

작업에 맞는 형식 고르기

형식용도
JSON / JSONL범용; 항목당 레코드 하나. 무난한 기본값.
CSV스프레드시트 및 분류 라벨의 빠른 분석.
CoNLLBIO 태그를 사용하는 토큰 단위 시퀀스 라벨링(NER, 청킹).
Hugging Face Datasetstransformers 학습에 바로 로드.
spaCyspaCy NER 및 텍스트 분류 모델 학습.
COCO / YOLO이미지 어노테이션을 통한 객체 탐지 및 분할.
Parquet대규모 컬럼형 저장 및 분석. Parquet 내보내기를 참고하세요.

출력 형식 설정하기

yaml
output_annotation_dir: "annotation_output/"
output_annotation_format: "jsonl"   # json, csv, conll, ...

내보내기에 담기는 내용

전형적인 레코드에는 항목 ID, 원본 내용, 모든 어노테이터의 라벨, 그리고 메타데이터(누가, 언제)가 들어갑니다. 집계값만이 아니라 모든 어노테이터의 라벨을 그대로 보관하면 일치도를 계산하고 나중에 다른 방법으로 다시 집계할 수 있습니다.

라벨링 전에 내보내기를 계획하세요

내보내기 형식은 입력 설계를 제약합니다. 시퀀스 라벨링 내보내기는 일관된 토큰화가 필요하고, COCO/YOLO는 이미지 크기가 필요하며, Hugging Face는 안정적인 라벨 집합이 필요합니다. 연구를 다시 진행하지 않으려면 목적지를 먼저 정하세요. 어노테이션을 위한 데이터 형식 설계를 참고하세요.

더 읽을거리