에이전트 궤적 주석 달기
Potato의 궤적 평가를 사용해 AI 에이전트 궤적을 단계별로 주석하는 방법, 오류 분류 체계, 심각도 점수, 궤적 수준의 성공을 다룹니다.
궤적이란 에이전트가 거친 단계의 전체 시퀀스, 즉 사고 과정, 도구 호출, 관찰 결과를 말합니다. 궤적에 주석을 단다는 것은 실행 전체를 평가하고 개별 단계가 어디서 잘못되었는지를 각 오류마다 범주와 심각도와 함께 표시하는 것입니다. 이는 가장 풍부한 형태의 에이전트 평가이며, 보상 모델과 표적 디버깅의 바탕이 되는 데이터입니다.
기능 레퍼런스는 에이전트 주석을 참고합니다.
무엇을 수집하는가
- 전체 결과: 성공, 부분 성공, 실패.
- 단계별 판단: 각 단계에 대해, 올바랐는지, 불필요했는지, 잘못되었는지?
- 오류 범주: 어떤 단계가 왜 잘못되었는지(잘못된 도구, 잘못된 인자, 환각, 반복 루프, 안전하지 않은 행동…).
- 심각도: 각 오류가 얼마나 심각했는지로, 흔히 점수로 가중치가 매겨집니다.
궤적 평가 설정하기
Potato의 trajectory_eval 유형은 각 단계를 카드로 렌더링하고, 심각도 가중치를 가진 단계별 오류 분류 체계를 붙입니다:
yaml
annotation_schemes:
- annotation_type: trajectory_eval
name: step_evaluation
description: "Evaluate each step for correctness and mark any errors."
steps_key: steps
error_types:
- {name: reasoning, subtypes: [logical_error, factual_error, planning_error]}
- {name: execution, subtypes: [wrong_tool, wrong_args, api_error]}
- {name: safety, subtypes: [harmful_action, data_leak, scope_violation]}
severities:
- {name: minor, weight: -1}
- {name: major, weight: -5}
- {name: critical, weight: -10}
show_score: true심각도 가중치는 궤적 점수로 합산되므로, 실행들을 순위 매기고 모델 버전 간 회귀를 추적할 수 있습니다.
좋은 오류 분류 체계 설계하기
분류 체계는 작업의 핵심입니다. 작고, 빠짐없으며, 상호 배타적으로 유지합니다. 실용적인 출발 집합은 다음과 같습니다:
- 추론 오류: 잘못된 결론, 무시된 근거, 부실한 계획.
- 실행 오류: 잘못된 도구, 형식이 어긋난 호출, 잘못 처리된 결과.
- 안전 오류: 안전하지 않은 행동, 범위를 벗어난 동작, 데이터 노출.
자유 텍스트 "기타" 항목을 추가해 주석자가 새로운 유형의 실패를 억지로 잘못 분류하지 않도록 하고, 반복되는 "기타" 메모는 이름 붙인 범주로 승격합니다.
품질 고려 사항
- 단계 정확성에 대한 일치도는 대체로 높지만, 오류 범주에 대한 일치도는 더 낮습니다. 둘 다 측정합니다. 주석자 간 일치도를 참고합니다.
- 긴 궤적은 피로를 유발하므로, 길이를 제한하거나 페이지를 나눕니다.
- "처음 잘못된 단계"가 학습에 가장 중요한 경우가 많습니다. 프로세스 보상 모델을 참고합니다.