AI 에이전트를 평가하는 방법
트라젝토리, 스텝, 스팬, 비교 수준에서 사람의 어노테이션으로 AI 에이전트와 LLM을 평가하는 방법과 각 수준에 맞는 Potato 도구에 대한 개요입니다.
AI 에이전트를 평가한다는 것은 최종 답변만이 아니라 그것이 거쳐 온 경로, 즉 그 과정에서의 추론, 도구 호출, 행동까지 함께 판단하는 것을 의미합니다. 이 작업에서는 여전히 사람의 어노테이션이 표준입니다. 그럴듯하지만 틀린 단계나 안전하지 않은 행동처럼 사람만이 안정적으로 잡아낼 수 있는 에이전트 실패가 많기 때문입니다. Potato는 에이전트 평가의 모든 수준에 맞춘 전용 도구를 제공합니다.
여기서 AI 에이전트란 작업을 완수하기 위해 도구를 호출하거나 웹을 탐색하거나 코드를 작성하는 등 여러 단계의 행동을 수행하는 LLM 기반 시스템을 말합니다. 에이전트 평가 개요와 에이전틱 어노테이션 레퍼런스를 참고하십시오.
네 가지 평가 수준
지금 던지는 질문에 맞는 수준을 선택하십시오:
- 트라젝토리 수준: 실행 전체를 판단합니다. 성공했는가? 효율적이고 안전했는가? 에이전트 트라젝토리 어노테이션을 참고하십시오.
- 스텝 수준: 각 행동을 판단합니다. 이 도구 호출은 올바른가? 이 단계는 필요했는가? 이것이 프로세스 보상 모델 뒤에 있는 데이터입니다.
- 스팬 수준: 환각된 주장이나 안전하지 않은 지시처럼 출력 내부의 구체적인 문제를 강조 표시합니다. 환각 탐지를 참고하십시오.
- 비교 수준: 두 에이전트 또는 두 실행을 직접 비교하여 판단합니다. 쌍별 모델 비교를 참고하십시오.
Potato가 처리하는 것
Potato는 OpenAI와 Anthropic의 도구 호출, ReAct, LangChain, LangFuse, WebArena, SWE-bench, MCP, OpenTelemetry를 포함한 13가지 형식의 에이전트 트레이스를 읽어들이며, 에이전트 유형에 맞게 조정된 화면으로 렌더링합니다:
- 추론 및 도구 트레이스를 위한 에이전트 트레이스 화면.
- 스크린샷과 행동 오버레이가 포함된 웹 에이전트 화면, 웹 에이전트 평가를 참고하십시오.
- diff와 터미널 출력이 포함된 코딩 트레이스 화면, 코딩 에이전트 평가를 참고하십시오.
- 에이전트를 실시간으로 관찰하고 조종하는 라이브 에이전트 화면, 라이브 에이전트 평가를 참고하십시오.
접근 방식 선택하기
| 질문 | 접근 방식 |
|---|---|
| "에이전트가 작업을 완수했는가?" | 트라젝토리 성공 레이블 |
| "정확히 어디서 잘못되었는가?" | 스텝 수준 오류 분류 체계 |
| "어느 버전이 더 나은가?" | 쌍별 비교 |
| "여러 축에서 얼마나 좋은가?" | 루브릭 평가 |
| "검색된 컨텍스트 기반 답변이 충실한가?" | RAG 평가 |