Skip to content

코딩 에이전트 평가

diff, 터미널 출력, SWE-bench/Aider/Claude Code 트레이스를 검토하여 코딩 에이전트를 평가하는 방법. Potato의 코딩 트레이스 표시 기능을 활용합니다.

코딩 에이전트는 파일을 편집하고, 명령을 실행하고, 출력을 읽어 프로그래밍 작업을 해결합니다. 이를 평가하는 것은 터미널 세션까지 포함된 pull request를 검토하는 것과 같습니다. 즉, 코드 변경과 그것을 만들어낸 단계를 함께 판단합니다. Potato는 통합 diff와 터미널 블록을 렌더링하므로, 어노테이터가 PR을 검토하듯이 코딩 실행을 검토할 수 있습니다.

이는 SWE-bench와 같은 자동화 벤치마크와 짝을 이룹니다. 사람의 검토는 약한 테스트를 통과하는, 그럴듯하지만 틀린 패치를 잡아냅니다.

어노테이터가 검토하는 것

  • diff: 각 파일 변경에 대한 색상으로 구분된 통합 diff와 줄 번호, 그리고 파일 트리 사이드바.
  • 명령과 출력: 에이전트가 무엇을 실행했고 무엇이 반환되었는지 보여 주는 터미널 블록.
  • 추론: 행동 사이에 있는 에이전트의 생각.

Potato는 SWE-bench, Aider, Claude Code 형식을 포함한 코딩 에이전트 트레이스를 읽습니다. 코딩 에이전트 어노테이션코드 리뷰 어노테이션을 참조하십시오.

무엇을 판단할 것인가

  • 정확성: 변경이 다른 것을 망가뜨리지 않고 작업을 해결하는가?
  • 단계 품질: 각 편집/명령이 합리적이었는가, 아니면 갈팡질팡했는가?
  • 효율성: 합리적인 경로를 택했는가?
yaml
annotation_schemes:
  - annotation_type: per_turn_rating
    name: step_correctness
    description: "Judge each edit or command."
    target: agentic_steps
    rating_type: radio
    labels: ["Correct", "Partially correct", "Incorrect", "Unnecessary"]
  - annotation_type: radio
    name: overall
    description: "Does the final change solve the task?"
    labels: [Solved, Partially solved, Not solved]

품질 고려 사항

  • 어노테이터에게 작업 설명과 저장소 컨텍스트를 제공하십시오. diff는 목표 없이는 의미가 없습니다.
  • 첫 오류 추론 체인에 대해서는 프로세스 보상 모델을 참조하십시오.
  • 녹화를 검토하는 대신 에이전트가 실시간으로 코딩하는 것을 지켜보려면 실시간 에이전트 평가를 참조하십시오.

더 읽을거리