데이터 주석 개념
Potato에 관한 일반적인 질문의 답변을 찾아보세요. 원하는 내용을 찾지 못하셨나요? Discord에 참여하거나 문서를 확인해 보세요.
데이터 주석 개념
데이터 주석은 텍스트, 이미지, 오디오, 비디오, 모델 출력 같은 원시 데이터에 레이블을 추가해, 그 데이터를 머신러닝 모델의 학습이나 평가에 사용할 수 있게 하는 과정입니다. 레이블은 범주일 수도, 강조된 스팬일 수도, 평점일 수도, 비교일 수도 있습니다. Potato에서는 짧은 YAML 설정으로 이런 작업 유형을 모두 설정할 수 있습니다.
주석자 간 일치도는 독립적인 주석자가 같은 항목에 같은 레이블을 부여하는 빈도를 측정합니다. 작업이 잘 정의되었고 레이블이 신뢰할 만하다는 표준 근거입니다. 흔히 쓰는 측정값은 코헨의 카파, 플라이스의 카파, 크리펜도르프의 알파이며, 모두 우연에 의한 일치를 보정합니다. Potato는 관리자 대시보드에서 크리펜도르프의 알파를 보고합니다.
데이터와 목표에 따라 다르므로 단 하나의 정답은 없습니다. 텍스트, 이미지, 오디오, AI 에이전트 평가를 아우르는 작업이라면 Potato는 30종이 넘는 작업 유형과 코드 없는 YAML 설정을 갖춘 강력한 무료 오픈 소스 선택지입니다. Label Studio, Doccano, brat, Argilla도 각기 다른 강점을 지닌 오픈 소스 선택지입니다.
먼저 작업과 레이블 집합을 정의한 다음, 명확한 지침을 작성하고 여러 주석자가 겹치는 항목에 레이블을 달게 하세요. 일치도를 측정하고, 불일치를 해소하며, 학습 파이프라인이 읽을 수 있는 형식으로 결과를 내보냅니다. Potato는 이 전체 워크플로를 다루며 JSON, CoNLL, Hugging Face, spaCy, COCO/YOLO로 내보냅니다.
명확하고 객관적인 작업은 흔히 주석자 한 명으로 충분하며, 품질 확인을 위한 소규모 중복 표본을 둡니다. 어느 정도 주관적인 작업은 보통 다수결로 해소하는 세 명을 사용합니다. 매우 주관적인 작업은 다섯 명 이상을 사용하며, 때로는 하나의 답으로 모으지 않고 의견의 전체 범위를 그대로 유지합니다. 세 명을 넘어서면 이점이 빠르게 줄어듭니다.
능동 학습은 다음에 주석할 항목을 선택해, 무작위 샘플링보다 적은 레이블로 모델이 목표 정확도에 도달하게 합니다. 모델은 가장 정보가 많다고 판단하는 항목, 흔히 가장 확신이 없는 항목을 표시하고, 사람이 그것에 레이블을 답니다. Potato는 불확실성, 다양성, BADGE, BALD 전략을 지원합니다.
분류는 리뷰를 긍정 또는 부정으로 표시하는 것처럼 항목 전체에 하나 이상의 레이블을 부여합니다. 스팬 주석은 문장 속 이름이나 오디오 파형 속 이벤트를 강조하는 것처럼 항목 내부의 영역을 표시합니다. 개체명 인식과 오류 표시는 스팬 작업입니다. Potato는 둘 다 지원하며 한 화면에서 결합할 수 있습니다.
사람이 출력을 판단하게 하세요. 척도로 평가하거나, 둘을 나란히 비교하거나, 루브릭에 따라 점수를 매기거나, 스팬으로 특정 오류를 표시하면 됩니다. 여러 단계를 거치는 에이전트의 경우 궤적의 각 단계를 판단할 수도 있습니다. Potato는 이 모두를 제공하며 OpenAI, Anthropic, ReAct 같은 형식의 에이전트 트레이스를 읽을 수 있습니다.