Skip to content

AI 에이전트를 평가하는 방법

트라젝토리, 스텝, 스팬, 비교 수준에서 사람의 어노테이션으로 AI 에이전트와 LLM을 평가하는 방법과 각 수준에 맞는 Potato 도구에 대한 개요입니다.

AI 에이전트를 평가한다는 것은 최종 답변만이 아니라 그것이 거쳐 온 경로, 즉 그 과정에서의 추론, 도구 호출, 행동까지 함께 판단하는 것을 의미합니다. 이 작업에서는 여전히 사람의 어노테이션이 표준입니다. 그럴듯하지만 틀린 단계나 안전하지 않은 행동처럼 사람만이 안정적으로 잡아낼 수 있는 에이전트 실패가 많기 때문입니다. Potato는 에이전트 평가의 모든 수준에 맞춘 전용 도구를 제공합니다.

여기서 AI 에이전트란 작업을 완수하기 위해 도구를 호출하거나 웹을 탐색하거나 코드를 작성하는 등 여러 단계의 행동을 수행하는 LLM 기반 시스템을 말합니다. 에이전트 평가 개요에이전틱 어노테이션 레퍼런스를 참고하십시오.

네 가지 평가 수준

지금 던지는 질문에 맞는 수준을 선택하십시오:

  • 트라젝토리 수준: 실행 전체를 판단합니다. 성공했는가? 효율적이고 안전했는가? 에이전트 트라젝토리 어노테이션을 참고하십시오.
  • 스텝 수준: 각 행동을 판단합니다. 이 도구 호출은 올바른가? 이 단계는 필요했는가? 이것이 프로세스 보상 모델 뒤에 있는 데이터입니다.
  • 스팬 수준: 환각된 주장이나 안전하지 않은 지시처럼 출력 내부의 구체적인 문제를 강조 표시합니다. 환각 탐지를 참고하십시오.
  • 비교 수준: 두 에이전트 또는 두 실행을 직접 비교하여 판단합니다. 쌍별 모델 비교를 참고하십시오.

Potato가 처리하는 것

Potato는 OpenAI와 Anthropic의 도구 호출, ReAct, LangChain, LangFuse, WebArena, SWE-bench, MCP, OpenTelemetry를 포함한 13가지 형식의 에이전트 트레이스를 읽어들이며, 에이전트 유형에 맞게 조정된 화면으로 렌더링합니다:

  • 추론 및 도구 트레이스를 위한 에이전트 트레이스 화면.
  • 스크린샷과 행동 오버레이가 포함된 웹 에이전트 화면, 웹 에이전트 평가를 참고하십시오.
  • diff와 터미널 출력이 포함된 코딩 트레이스 화면, 코딩 에이전트 평가를 참고하십시오.
  • 에이전트를 실시간으로 관찰하고 조종하는 라이브 에이전트 화면, 라이브 에이전트 평가를 참고하십시오.

접근 방식 선택하기

질문접근 방식
"에이전트가 작업을 완수했는가?"트라젝토리 성공 레이블
"정확히 어디서 잘못되었는가?"스텝 수준 오류 분류 체계
"어느 버전이 더 나은가?"쌍별 비교
"여러 축에서 얼마나 좋은가?"루브릭 평가
"검색된 컨텍스트 기반 답변이 충실한가?"RAG 평가

더 읽어보기