Skip to content
v2.4 신규

모든 수준에서 AI 에이전트 평가하기

어떤 프레임워크의 에이전트 트레이스든 주석 처리하세요. 전체 궤적, 개별 단계, 특정 추론 오류를 평가할 수 있습니다. 에이전트가 작동하는 모습을 실시간으로 지켜보고, 여러 접근 방식을 나란히 비교하세요.

5표시 유형
13트레이스 형식
14예제 프로젝트
3라이브 백엔드

다섯 가지 전용 표시 유형

각 표시 유형은 도구 사용, 웹 브라우징, 코딩, 채팅, 라이브 관찰 등 서로 다른 에이전트 양식에 최적화되어 있습니다.

🔄

에이전트 트레이스 표시

도구를 사용하는 에이전트를 위한 색상별 단계 카드입니다. 접이식 섹션과 JSON 보기 좋게 출력 기능을 갖춘 사고, 행동, 관찰, 오류 단계를 제공합니다.

🌐

웹 에이전트 트레이스 뷰어

클릭 위치, 바운딩 박스, 스크롤 경로를 보여주는 SVG 오버레이가 적용된 스크린샷입니다. 빠른 탐색을 위한 필름스트립 썸네일 막대를 제공합니다.

💬

대화형 채팅 표시

AI 에이전트와의 라이브 대화 또는 녹화된 대화 검토 기능입니다. 발화별 평가가 각 메시지 아래에 인라인으로 표시됩니다.

📡

라이브 에이전트 뷰어

일시 정지, 재개, 지시 전송, 제어권 인계 기능을 갖춘 실시간 관찰입니다. 에이전트가 작업하는 동안 SSE로 동작을 스트리밍합니다.

💻

코딩 트레이스 표시

코딩 에이전트를 위한 전용 표시입니다. 통합 diff 뷰, 어두운 터미널 블록, 줄 번호가 표시된 파일 읽기, 파일 트리 사이드바를 제공합니다.

에이전트용 주석 스키마

트레이스, 단계, 비교 수준에서 구조화된 에이전트 평가를 위한 전용 스키마입니다.

trajectory_eval

궤적 평가

계층적 오류 분류 체계, 심각도 점수화, 그리고 심각도에 따라 점수를 차감하는 실시간 점수 추적기를 갖춘 단계별 오류 위치 식별입니다.

rubric_eval

루브릭 평가

MT-Bench 방식의 다중 기준 격자입니다. 사용자 지정 기준과 평가 척도를 정의하세요. 주석자가 각 차원을 독립적으로 평가합니다.

pairwise

쌍대 비교

두 에이전트 트레이스를 나란히 비교합니다. 이진 선호, 연속 척도, 차원별 다중 기준 판단의 세 가지 모드를 제공합니다.

per_turn_rating

발화별 평가

평가 스키마를 대화 발화에 직접 연결합니다. 어떤 화자 유형을 평가할지 설정하세요. 평가가 각 발화 아래에 인라인으로 표시됩니다.

process_reward

프로세스 보상

첫 번째로 잘못된 단계를 클릭하면 이후 단계가 모두 자동 표시됩니다. 또는 각 단계를 독립적으로 평가하세요. PRM 학습 형식으로 바로 내보냅니다.

code_review

코드 리뷰

코딩 에이전트 출력에 대한 인라인 diff 댓글, 파일 수준 품질 평가, 승인/거부 판정을 갖춘 GitHub PR 방식의 주석입니다.

어떤 프레임워크에서든 트레이스 가져오기

Potato는 13개 에이전트 프레임워크의 트레이스를 범용 형식으로 변환합니다. CLI 변환기나 실시간 웹훅 수집을 사용하세요.

변환기출처주요 기능
LangChain / LangSmithLangChain 생태계계층적 실행, 도구 호출
LangfuseLangfuse 관측관찰 스팬, 점수
OpenAIOpenAI API함수 호출, 어시스턴트
Anthropic ClaudeAnthropic API도구 사용, 사고 블록
MCPModel Context Protocol도구 + 리소스 호출
OpenTelemetry분산 시스템스팬 계층, 속성
ATIF학술 형식표준 교환
WebArena웹 벤치마크스크린샷, 요소 타기팅
원시 브라우저브라우저 녹화HAR + 스크린샷
Claude CodeAnthropic Messages API도구 사용 블록, 코드 diff
AiderAider 채팅 세션Markdown 편집 블록
SWE-Agent코딩 벤치마크사고/행동/관찰
ReAct범용 에이전트사고/행동/관찰

코딩 에이전트 평가하기

Claude Code, Aider, SWE-Agent 등 AI 코딩 어시스턴트를 위한 diff, 터미널, 파일 표시를 갖춘 전용 렌더링입니다.

적색/녹색 강조가 적용된 통합 diff 뷰
bash 출력을 위한 어두운 터미널 블록
변경된 모든 파일을 보여주는 파일 트리 사이드바
PRM 학습을 위한 프로세스 보상 주석
GitHub PR 방식의 인라인 코드 리뷰
Claude Code, Aider, SWE-Agent용 변환기
# Quick start
pip install potato-annotation
potato start examples/agent-traces/coding-agent-eval/config.yaml -p 8000

에이전트가 작동하는 모습을 실시간으로 지켜보기

코딩 에이전트가 파일을 읽고, 코드를 편집하고, 테스트를 실행하는 모습을 관찰하세요. 잘못될 때 개입할 수 있습니다.

Ollama

완전히 로컬에서 실행되며 API 키가 필요 없습니다. Ollama 호환 모델이라면 무엇이든 사용할 수 있습니다.

Anthropic API

코딩 에이전트 세션을 위한 도구 사용 기능을 갖춘 Claude입니다.

Claude Agent SDK

도구 사용과 파일 작업을 갖춘 완전한 Claude Code 기능입니다.

일시 정지 / 재개
지시 전송
체크포인트로 롤백
분기 및 재생

Potato 비교

코딩 에이전트 diff 렌더링, PRM 주석, 라이브 관찰, 13종 형식 트레이스 변환을 갖춘 유일한 무료 셀프 호스팅 도구입니다.

기능PotatoLangSmithLangfuseLabel StudioArgillaScale AI
트레이스 형식 지원13종 형식LangChain 전용Langfuse 전용범용범용사용자 지정
단계별 주석trajectory_eval + PRM제한적제한적아니요
실시간 에이전트 관찰아니요아니요아니요아니요아니요
에이전트 일시 정지/재개/인계아니요아니요아니요아니요아니요
코드 diff 렌더링아니요아니요아니요아니요아니요
터미널 출력 렌더링아니요아니요아니요아니요아니요
PRM 데이터 수집아니요아니요아니요아니요아니요
인라인 댓글이 포함된 코드 리뷰아니요아니요아니요아니요아니요
쌍대 에이전트 비교3가지 모드아니요아니요아니요아니요
다중 기준 루브릭아니요아니요아니요아니요
셀프 호스팅아니요아니요
무료아니요부분적부분적아니요

바로 실행 가능한 예제 프로젝트 14종

각 예제에는 설정, 샘플 데이터, 문서가 함께 제공됩니다. 어떤 예제든 1분 안에 실행할 수 있습니다.

에이전트 트레이스 평가

작업 성공, MAST 오류 분류 체계, 발화별 평가, 스팬 주석

웹 에이전트 검토

스크린샷, SVG 오버레이, 필름스트립을 갖춘 웹 브라우징 트레이스

웹 에이전트 생성

주석자가 웹을 탐색하면 그 상호작용이 트레이스 데이터가 됩니다

라이브 에이전트 평가

일시 정지와 지시 제어로 AI 에이전트의 웹 브라우징을 실시간으로 지켜봅니다

대화형 VLM 평가

trajectory_eval 점수화를 이용한 비전-언어 모델 관찰

SWE-bench 평가

diff 렌더링과 PRM을 이용한 코딩 에이전트 패치 평가

Anthropic 평가

단계별 정확성을 이용한 Claude 도구 사용 트레이스 평가

OpenAI 평가

OpenAI 함수 호출 트레이스 평가 및 오류 분류 체계

LangChain 통합

웹훅을 통한 LangSmith의 실시간 트레이스 수집

멀티 에이전트 평가

CrewAI, AutoGen, LangGraph 멀티 에이전트 협업 트레이스

에이전트 비교

이진 선호를 이용한 나란히 보기 A/B 에이전트 비교

다차원 비교

필수 근거가 포함된 차원별 쌍대 판단

RAG 평가

RAG 파이프라인: 검색 관련성, 충실성, 인용

비주얼 에이전트 평가

GUI 에이전트의 그라운딩 정확도 및 내비게이션 점수화

오늘 에이전트 평가를 시작하세요

Potato를 설치하고 5분 안에 첫 에이전트 평가를 실행하세요. 무료, 오픈 소스, 셀프 호스팅입니다.