효과적인 주석 지침 작성하기

일관된 레이블을 만들어 내는 주석 코드북을 작성하는 방법으로, 명확한 정의, 실제 예시, 경계 사례 규칙, 그리고 시범 운영과 수정을 반복하는 절차를 다룹니다.

주석 지침("코드북")은 주석자가 따르는 규칙집입니다. 레이블 품질을 좌우하는 가장 큰 요인은 지침이 얼마나 상세한지가 아니라, 신중한 두 사람이 같은 레이블을 선택하게 만드는지 여부입니다. 좋은 예시가 담긴 짧고 명확한 코드북이 길고 모호한 코드북보다 낫습니다.

이는 사회과학의 내용 분석과 연결되는데, 이 분야에서는 코드북 설계가 수십 년간 연구되어 왔으며, 이것이 결국 여러분의 평가자 간 신뢰도를 결정합니다.

좋은 코드북에 담기는 것

레이블마다 한 문장짜리 정의와 더불어, 그 레이블이 무엇이 아닌지에 대한 한 줄. 부정적 정의는 가장 흔한 불일치를 막아 줍니다.
실제 예시, 경계 사례를 포함해서. 직접 만들어 낸 항목보다 여러분의 데이터에서 가져온 실제 항목이 낫습니다.
동점 처리 규칙. 두 레이블이 모두 해당할 수 있을 때 어느 쪽이 이기는지 명시합니다. 일관성은 바로 여기서 얻거나 잃습니다.
"의심스러울 때"의 기본값과 비상구(즉 "판단 불가" 옵션). 그래야 주석자가 말없이 추측하지 않습니다.

주석자가 보는 곳에 규칙을 둡니다

Potato는 안내문과 레이블별 툴팁을 컨트롤 바로 옆에 표시할 수 있어, 지침이 별도 문서가 아니라 결정이 이루어지는 지점에 자리하게 됩니다:

yaml

annotation_schemes:
  - annotation_type: radio
    name: toxicity
    description: "Is this comment toxic? Toxic = rude, disrespectful, or likely to make someone leave a conversation."
    labels: [Toxic, Not toxic, Can't tell]
    tooltips:
      Toxic: "Insults, threats, identity attacks, or harassment."
      Not toxic: "Disagreement or strong opinion without an attack."
      Can't tell: "Not enough context to judge."

"Can't tell" 옵션은 중요합니다. 진짜 모호함을 억지 추측과 구분해 주어, 일치도 지표를 정직하게 유지하기 때문입니다.

시범 운영한 뒤 수정합니다

지침은 첫 시도에 제대로 나오는 법이 없습니다. 작은 규모로 시범 운영을 하고, 주석자들이 불일치한 항목을 하나하나 살펴본 뒤, 지침이 불명확했는지 아니면 항목이 정말로 모호했는지를 판단합니다. 지침을 고치고 다시 시범 운영합니다. 보통 두세 차례를 거치면 레이블 집합이 안정됩니다.

Potato의 정답 기준과 주의력 점검을 사용하면 이미 정리된 사례를 점검 항목으로 인코딩하여, 이후의 주석자들이 계속 보정된 상태를 유지하게 할 수 있습니다.

효과적인 주석 지침 작성하기

좋은 코드북에 담기는 것

주석자가 보는 곳에 규칙을 둡니다

시범 운영한 뒤 수정합니다

더 읽을거리