생성 텍스트의 인간 평가

LLM 및 NLG 출력에 대해 방어 가능한 인간 평가를 수행하는 방법: 기준을 정밀하게 정의하고, 절대 평가와 쌍대 비교 중에서 선택하며, 연구에 충분한 검정력을 부여하고, 재현할 수 있을 만큼 충분히 보고하기.

BLEU와 ROUGE 같은 자동 지표는 생성 텍스트가 실제로 얼마나 좋은지와 약하게만 상관되므로 인간 평가가 여전히 표준이며, 그리고 그것은 잘 수행되는 경우보다 잘못 수행되는 경우가 더 많다. 신뢰할 수 있는 인간 평가를 장식용 평가와 구분 짓는 세 가지: 각 기준을 정밀하게 정의하고, 절대 점수보다 상대적 판단을 선호하며, 다른 사람이 다시 실행할 수 있을 만큼 충분한 세부 사항을 보고하는 것. 이 가이드는 프로토콜이지, 평가 기준의 문구가 아니다.

왜 인간 평가이며, 왜 신뢰하기 어려운가

개방형 생성, 요약, 대화, 번역, LLM 응답에서 자동 지표는 참조 텍스트와 비교하며 중요한 것의 대부분을 놓친다. 참조와 다르게 표현된 유창하고 충실한 답변은 낮은 점수를 받고, 유창한 거짓말은 높은 점수를 받는다. 그래서 인간의 판단이 여전히 그라운드 트루스로 남는다. 함정은 인간 평가 자체가 측정 도구라는 점이며, 잘못 설계된 도구는 그것이 대체한 지표만큼이나 잡음이 많은 수치를 만들어 낸다.

문제의 규모는 문서화되어 있다. Howcroft et al. (2020)은 20년간의 NLG 평가를 조사했고, 이 분야가 자신들의 기준이 무엇을 의미하는지조차 합의하지 못하고 있음을 발견했다. 「유창성」, 「적절성」, 「자연스러움」 같은 용어가 논문마다 다르게 정의되어 있었고(또는 아예 정의되지 않았고), 그 결과 결과를 비교하는 것이 불가능했다. 그들의 처방은 진지한 평가라면 무엇이든 출발점이 된다. 판단을 하나라도 수집하기 전에 각 기준이 정확히 무엇을 의미하는지 못박아라.

기준을 정밀하게 정의하라

모호한 기준이 바로 대부분의 인간 평가가 어긋나는 지점이다. 「품질을 1에서 5까지 평가하세요」는 각 주석자가 저마다의 품질 정의를 만들어 내도록 부추긴다. 그것을 이름이 붙고 개별적으로 정의된 차원으로 나누고, 각각에 대해 한 문장짜리 조작적 정의를 써라.

유창성: 내용이 정확한지 여부는 무시하고, 텍스트가 문법적이며 잘 형성되어 있는가?
일관성: 문장들이 전체로서 이치에 맞게 이어지는가?
충실성 / 사실 정확성: 모든 주장이 출처에 의해 뒷받침되는가(요약/RAG의 경우) 또는 참인가(개방형 생성의 경우)? 여기서 환각이 포착된다.
관련성: 실제로 프롬프트에 응답하는가?
유용성: 어시스턴트형 작업에서, 사용자가 원한 것을 달성하는가?

이들을 개별적으로 측정하면 어떤 시스템이 다른 시스템을 이겼다는 사실뿐 아니라 왜 이겼는지를 알 수 있다.

절대 점수인가 상대 비교인가

가장 큰 설계상의 선택은 주석자가 한 번에 하나의 출력을 평가하는가, 아니면 여럿을 비교하는가이다.

**절대 평가(리커트)**는 단순하지만 척도 편향에 시달린다. 주석자마다 기준점을 다르게 잡고, 양극단을 피하며, 세션이 진행되는 동안 기준이 표류하므로, 한 평가자의 「4」는 다른 평가자의 「4」가 아니다.
쌍대 선호(A와 B 중 어느 쪽이 더 나은가?)는 척도 편향을 완전히 우회하며 일반적으로 더 신뢰할 수 있고, 그래서 RLHF 선호 데이터와 모델 비교의 토대가 된다. 그 대가는 절대적인 수준이 아니라 순위를 얻는다는 점이다.
**베스트-워스트 스케일링**은 작은 집합을 보여 주고 최선과 최악만을 묻는다. 적은 판단으로 신뢰할 수 있는 순위를 얻는 저렴한 방법이다.

van der Lee et al. (2021)은 바로 이러한 선택들을 다루는 모범 사례 지침을 제시한다. 항목과 평가자의 수, 어떤 척도, 어떤 통계 분석을 다루며, 설계를 확정하기 전에 읽을 가치가 있다.

검정력을 부여하고, 보고하라

설계가 올바르게 된 뒤에도 두 가지 실패 양상이 남는다.

첫째, 검정력이 부족한 비교다. 두 좋은 시스템 사이의 작은 품질 차이를 검출하려면 사람들이 예상하는 것보다 더 많은 항목이 필요하다. 먼저 검정력 분석을 수행하고, 적절한 유의성 검정을 사용하며, 어느 평균이 더 높았는지만이 아니라 효과 크기를 보고하라.

둘째, 보고되지 않은 세부 사항이다. Belz et al. (2021)은 NLP의 재현성을 검토했고, 인간 평가가 특히 재현하기 어렵다는 것을 발견했는데, 대개 논문이 정확한 기준, 지침, 주석자 풀, 분석을 빠뜨리기 때문이다. 그 모든 것을 나중에 덧붙이는 것이 아니라 연구의 일부로 기록하라.

피할 수 있는 편향을 막는 몇 가지 장치: 출력 순서를 무작위화하여 위치가 새어 나가지 않게 하고(사람들은 첫 번째 선택지를 선호한다), 시스템의 정체를 가려서 주석자가 어떤 모델이 무엇을 생성했는지 알 수 없게 하며, 작은 배치로 시범 운영하여 일치도를 측정하고 규모를 키우기 전에 혼란스러운 기준을 바로잡아라.

Potato에서 수행하기

Potato에는 평가 방식마다 스킴이 있으므로, 위의 설계상의 선택이 곧바로 설정으로 대응된다. 기준별 절대 평가의 경우:

yaml

annotation_schemes:
  - name: faithfulness
    annotation_type: likert
    description: "Is every claim in the response supported by the source? 1 = many unsupported, 5 = fully supported."
    size: 5
  - name: fluency
    annotation_type: likert
    description: "Is the response grammatical and well-formed?"
    size: 5

블라인드 A/B 비교의 경우, pairwise 스킴을 사용하고 어느 시스템을 A로 표시할지 무작위화하라.

yaml

annotation_schemes:
  - name: preference
    annotation_type: pairwise
    description: "Which response is more helpful overall?"
    labels: ["A is better", "Tie", "B is better"]

한 번의 패스로 구조화된 다기준 채점을 하려면, rubric_eval 스킴이 평가 기준의 각 차원별로 점수를 수집한다. 무엇을 선택하든, 일치도를 보고할 수 있도록 공유 부분집합에서 중복을 유지하고, 유의성 검정이 필요로 하는 분산을 확보할 수 있도록 익스포트에 주석자별 라벨을 남겨 두어라.

더 읽을거리

평가 기준 기반 LLM 평가, 모호한 품질을 점수화된 차원으로 바꾸기 위해.
쌍대 모델 비교, 대규모 A/B 평가를 위해.
통계적 검정력과 표본 크기, 비교가 실제로 그 주장을 뒷받침할 수 있도록.
인간 주석을 활용한 RAG 평가, 특히 충실성/관련성 사례를 위해.