모델이 무언가를 지어낼 때, 답변 전체에 비추천을 누르는 것만으로는 거의 아무것도 알 수 없습니다. 어딘가 틀렸다는 것은 알지만, 어느 문장이 틀렸는지, 어떤 종류의 오류인지, 얼마나 심각한지는 알 수 없습니다. 스팬 어노테이션이 이를 해결합니다. 어노테이터가 정확한 단어를 강조하고 그 단어들이 무엇이 잘못되었는지 라벨링합니다.

이것은 기계 번역 평가가 수년간 사용해 온 오류 스팬 프레임워크인 MQM의 배경에 있는 것과 같은 발상입니다. 스팬을 표시하고, 오류를 분류하고, 심각도를 평가합니다. 그 결과는 실제로 활용할 수 있는 데이터입니다.

왜 스팬이 답변 전체 플래그보다 나은가

답변 전체에 붙인 "비충실" 라벨은 요약 통계입니다. 스팬은 위치이자 진단입니다. 스팬을 사용하면 유형별 오류율을 측정하고, 여러 출력에서 패턴을 발견하며, 관심 있는 실패 유형에 맞춘 학습 데이터를 구축할 수 있습니다. 판단의 단위가 응답 전체일 때는 이 중 어느 것도 불가능합니다.

Potato에서 설정하기

문제가 있는 텍스트를 강조하고, 오류 유형을 라벨링하며, 사소한 실수와 위험한 날조가 같은 비중으로 다뤄지지 않도록 심각도 판단을 추가합니다.

yaml

annotation_schemes:
  - annotation_type: span
    name: errors
    description: "Highlight each problematic span and label the error type."
    labels: [unsupported_claim, factual_error, contradiction, fabricated_citation]
    label_colors:
      unsupported_claim: "#f59e0b"
      factual_error: "#ef4444"
      contradiction: "#8b5cf6"
      fabricated_citation: "#ec4899"
  - annotation_type: radio
    name: severity
    description: "How serious is the worst error?"
    labels: [Minor, Major, Critical]

데이터 품질을 결정하는 규칙

어노테이터에게 원본 자료를 제공하십시오. 원본이 없으면 "근거 없음"은 정의할 수 없으므로, 문서나 맥락이 탭 뒤가 아니라 화면에 보여야 합니다.

경계 규칙을 한 번에 정하십시오. 스팬이 문장 전체를 포괄합니까, 아니면 거짓인 절만 포괄합니까? 둘 다 타당합니다. 하나를 골라 문서로 적어 두십시오.

가장자리에서 주관성이 생길 것을 예상하십시오. 충실성 판단은 경계 사례에서 갈리므로, 표본에서 중복 작업을 수집하고 숫자를 신뢰하기 전에 일치도를 확인하십시오.

다음 단계

각 오류 유형을 정의하는 방법을 포함한 전체 안내는 환각 탐지 가이드에 있습니다. 이 문제의 검색 기반(retrieval) 버전은 RAG 평가와 스팬 어노테이션 가이드를 참고하십시오. 구현 세부 사항은 오류 스팬 원본 문서를 참고하십시오.