AI 에이전트를 평가하는 방법

트라젝토리, 스텝, 스팬, 비교 수준에서 사람의 어노테이션으로 AI 에이전트와 LLM을 평가하는 방법과 각 수준에 맞는 Potato 도구에 대한 개요입니다.

AI 에이전트를 평가한다는 것은 최종 답변만이 아니라 그것이 거쳐 온 경로, 즉 그 과정에서의 추론, 도구 호출, 행동까지 함께 판단하는 것을 의미합니다. 이 작업에서는 여전히 사람의 어노테이션이 표준입니다. 그럴듯하지만 틀린 단계나 안전하지 않은 행동처럼 사람만이 안정적으로 잡아낼 수 있는 에이전트 실패가 많기 때문입니다. Potato는 LLM 에이전트의 트라젝토리를 사람이 어노테이션하기 위한 오픈소스 도구로, 평가의 각 수준에 맞춘 전용 화면을 제공합니다.

여기서 AI 에이전트란 작업을 완수하기 위해 도구를 호출하거나 웹을 탐색하거나 코드를 작성하는 등 여러 단계의 행동을 수행하는 LLM 기반 시스템을 말합니다. 에이전트 평가 개요와 에이전틱 어노테이션 레퍼런스를 참고하십시오.

AI 에이전트 평가의 수준에는 어떤 것들이 있나요?

지금 던지는 질문에 맞는 수준을 선택하십시오:

트라젝토리 수준: 실행 전체를 판단합니다. 성공했는가? 효율적이고 안전했는가? 에이전트 트라젝토리 어노테이션을 참고하십시오.
스텝 수준: 각 행동을 판단합니다. 이 도구 호출은 올바른가? 이 단계는 필요했는가? 이것이 프로세스 보상 모델 뒤에 있는 데이터입니다.
스팬 수준: 환각된 주장이나 안전하지 않은 지시처럼 출력 내부의 구체적인 문제를 강조 표시합니다. 환각 탐지를 참고하십시오.
비교 수준: 두 에이전트 또는 두 실행을 직접 비교하여 판단합니다. 쌍별 모델 비교를 참고하십시오.
팀 수준: 멀티 에이전트 시스템에서 실패를 책임 에이전트, 스텝, 핸드오프에 귀인합니다. 멀티 에이전트 시스템을 평가하는 방법을 참고하십시오.

Potato는 어떤 에이전트 트레이스 형식을 지원하나요?

Potato는 OpenAI와 Anthropic의 도구 호출, ReAct, LangChain, LangFuse, WebArena, SWE-bench, MCP, OpenTelemetry를 포함한 13가지 형식의 에이전트 트레이스를 읽어들이며, 에이전트 유형에 맞게 조정된 화면으로 렌더링합니다:

추론 및 도구 트레이스를 위한 에이전트 트레이스 화면.
스크린샷과 행동 오버레이가 포함된 웹 에이전트 화면, 웹 에이전트 평가를 참고하십시오.
diff와 터미널 출력이 포함된 코딩 트레이스 화면, 코딩 에이전트 평가를 참고하십시오.
에이전트를 실시간으로 관찰하고 조종하는 라이브 에이전트 화면, 라이브 에이전트 평가를 참고하십시오.
컴퓨터 사용, 음성, 비디오 에이전트를 위한 멀티모달 에이전트 화면, 컴퓨터 사용 및 멀티모달 에이전트 평가를 참고하십시오.

어떤 에이전트 평가 방법을 선택해야 하나요?

질문	접근 방식
"에이전트가 작업을 완수했는가?"	트라젝토리 성공 레이블
"정확히 어디서 잘못되었는가?"	스텝 수준 오류 분류 체계
"어느 버전이 더 나은가?"	쌍별 비교
"여러 축에서 얼마나 좋은가?"	루브릭 평가
"검색된 컨텍스트 기반 답변이 충실한가?"	RAG 평가
"팀의 어느 에이전트가 실패를 일으켰는가?"	멀티 에이전트 귀인
"컴퓨터 사용 에이전트가 올바른 것을 클릭했는가?"	GUI 트라젝토리 검토

AI 에이전트를 평가하는 방법

AI 에이전트 평가의 수준에는 어떤 것들이 있나요?

Potato는 어떤 에이전트 트레이스 형식을 지원하나요?

어떤 에이전트 평가 방법을 선택해야 하나요?

더 읽어보기