머신러닝을 위한 어노테이션 내보내기

Potato 어노테이션을 ML에 바로 쓸 수 있는 형식인 JSON/JSONL, CoNLL, Hugging Face Datasets, spaCy, COCO, YOLO로 내보내는 방법과 각 형식의 용도를 설명합니다.

어노테이션의 목적은 대개 모델을 학습하거나 평가하는 것이므로 내보내기 형식이 중요합니다. Potato는 일반적인 JSON/JSONL/CSV뿐 아니라 학습 파이프라인이 곧바로 읽는 ML 전용 형식도 출력하므로 별도의 연결 코드가 필요 없습니다. 라벨링하기 전에 대상 형식을 정해 두면 데이터와 ID를 어떻게 구성할지 알 수 있습니다.

참고 자료는 내보내기 형식을 보시기 바랍니다.

작업에 맞는 형식 고르기

형식	용도
JSON / JSONL	범용; 항목당 레코드 하나. 무난한 기본값.
CSV	스프레드시트 및 분류 라벨의 빠른 분석.
CoNLL	BIO 태그를 사용하는 토큰 단위 시퀀스 라벨링(NER, 청킹).
Hugging Face Datasets	`transformers` 학습에 바로 로드.
spaCy	spaCy NER 및 텍스트 분류 모델 학습.
COCO / YOLO	이미지 어노테이션을 통한 객체 탐지 및 분할.
Parquet	대규모 컬럼형 저장 및 분석. Parquet 내보내기를 참고하세요.

출력 형식 설정하기

yaml

output_annotation_dir: "annotation_output/"
output_annotation_format: "jsonl"   # json, csv, conll, ...

내보내기에 담기는 내용

전형적인 레코드에는 항목 ID, 원본 내용, 모든 어노테이터의 라벨, 그리고 메타데이터(누가, 언제)가 들어갑니다. 집계값만이 아니라 모든 어노테이터의 라벨을 그대로 보관하면 일치도를 계산하고 나중에 다른 방법으로 다시 집계할 수 있습니다.

라벨링 전에 내보내기를 계획하세요

내보내기 형식은 입력 설계를 제약합니다. 시퀀스 라벨링 내보내기는 일관된 토큰화가 필요하고, COCO/YOLO는 이미지 크기가 필요하며, Hugging Face는 안정적인 라벨 집합이 필요합니다. 연구를 다시 진행하지 않으려면 목적지를 먼저 정하세요. 어노테이션을 위한 데이터 형식 설계를 참고하세요.

머신러닝을 위한 어노테이션 내보내기

작업에 맞는 형식 고르기

출력 형식 설정하기

내보내기에 담기는 내용

라벨링 전에 내보내기를 계획하세요

더 읽을거리