Question 1

데이터 주석이란 무엇인가요?

Accepted Answer

데이터 주석은 텍스트, 이미지, 오디오, 비디오, 모델 출력 같은 원시 데이터에 레이블을 추가해, 그 데이터를 머신러닝 모델의 학습이나 평가에 사용할 수 있게 하는 과정입니다. 레이블은 범주일 수도, 강조된 스팬일 수도, 평점일 수도, 비교일 수도 있습니다. Potato에서는 짧은 YAML 설정으로 이런 작업 유형을 모두 설정할 수 있습니다.

Question 2

주석자 간 일치도란 무엇인가요?

Accepted Answer

주석자 간 일치도는 독립적인 주석자가 같은 항목에 같은 레이블을 부여하는 빈도를 측정합니다. 작업이 잘 정의되었고 레이블이 신뢰할 만하다는 표준 근거입니다. 흔히 쓰는 측정값은 코헨의 카파, 플라이스의 카파, 크리펜도르프의 알파이며, 모두 우연에 의한 일치를 보정합니다. Potato는 관리자 대시보드에서 크리펜도르프의 알파를 보고합니다.

Question 3

가장 좋은 무료 주석 도구는 무엇인가요?

Accepted Answer

데이터와 목표에 따라 다르므로 단 하나의 정답은 없습니다. 텍스트, 이미지, 오디오, AI 에이전트 평가를 아우르는 작업이라면 Potato는 50종이 넘는 작업 유형과 코드 없는 YAML 설정을 갖춘 강력한 무료 오픈 소스 선택지입니다. Label Studio, Doccano, brat, Argilla도 각기 다른 강점을 지닌 오픈 소스 선택지입니다.

Question 4

머신러닝을 위해 데이터를 어떻게 레이블링하나요?

Accepted Answer

먼저 작업과 레이블 집합을 정의한 다음, 명확한 지침을 작성하고 여러 주석자가 겹치는 항목에 레이블을 달게 하세요. 일치도를 측정하고, 불일치를 해소하며, 학습 파이프라인이 읽을 수 있는 형식으로 결과를 내보냅니다. Potato는 이 전체 워크플로를 다루며 JSON, CoNLL, Hugging Face, spaCy, COCO/YOLO로 내보냅니다.

Question 5

항목당 몇 명의 주석자가 필요한가요?

Accepted Answer

명확하고 객관적인 작업은 흔히 주석자 한 명으로 충분하며, 품질 확인을 위한 소규모 중복 표본을 둡니다. 어느 정도 주관적인 작업은 보통 다수결로 해소하는 세 명을 사용합니다. 매우 주관적인 작업은 다섯 명 이상을 사용하며, 때로는 하나의 답으로 모으지 않고 의견의 전체 범위를 그대로 유지합니다. 세 명을 넘어서면 이점이 빠르게 줄어듭니다.

Question 6

데이터 주석에서 능동 학습이란 무엇인가요?

Accepted Answer

능동 학습은 다음에 주석할 항목을 선택해, 무작위 샘플링보다 적은 레이블로 모델이 목표 정확도에 도달하게 합니다. 모델은 가장 정보가 많다고 판단하는 항목, 흔히 가장 확신이 없는 항목을 표시하고, 사람이 그것에 레이블을 답니다. Potato는 불확실성, 다양성, BADGE, BALD 전략을 지원합니다.

Question 7

분류와 스팬 주석의 차이는 무엇인가요?

Accepted Answer

분류는 리뷰를 긍정 또는 부정으로 표시하는 것처럼 항목 전체에 하나 이상의 레이블을 부여합니다. 스팬 주석은 문장 속 이름이나 오디오 파형 속 이벤트를 강조하는 것처럼 항목 내부의 영역을 표시합니다. 개체명 인식과 오류 표시는 스팬 작업입니다. Potato는 둘 다 지원하며 한 화면에서 결합할 수 있습니다.

Question 8

LLM이나 AI 에이전트 출력을 어떻게 평가하나요?

Accepted Answer

사람이 출력을 판단하게 하세요. 척도로 평가하거나, 둘을 나란히 비교하거나, 루브릭에 따라 점수를 매기거나, 스팬으로 특정 오류를 표시하면 됩니다. 여러 단계를 거치는 에이전트의 경우 궤적의 각 단계를 판단할 수도 있습니다. Potato는 이 모두를 제공하며 OpenAI, Anthropic, ReAct 같은 형식의 에이전트 트레이스를 읽을 수 있습니다.

데이터 주석 개념

데이터 주석 개념

아직 궁금한 점이 있으신가요?