모든 수준에서 AI 에이전트 평가하기
어떤 프레임워크의 에이전트 트레이스든 주석 처리하세요. 전체 궤적, 개별 단계, 특정 추론 오류를 평가할 수 있습니다. 에이전트가 작동하는 모습을 실시간으로 지켜보고, 여러 접근 방식을 나란히 비교하세요.
다섯 가지 전용 표시 유형
각 표시 유형은 도구 사용, 웹 브라우징, 코딩, 채팅, 라이브 관찰 등 서로 다른 에이전트 양식에 최적화되어 있습니다.
에이전트 트레이스 표시
도구를 사용하는 에이전트를 위한 색상별 단계 카드입니다. 접이식 섹션과 JSON 보기 좋게 출력 기능을 갖춘 사고, 행동, 관찰, 오류 단계를 제공합니다.
웹 에이전트 트레이스 뷰어
클릭 위치, 바운딩 박스, 스크롤 경로를 보여주는 SVG 오버레이가 적용된 스크린샷입니다. 빠른 탐색을 위한 필름스트립 썸네일 막대를 제공합니다.
대화형 채팅 표시
AI 에이전트와의 라이브 대화 또는 녹화된 대화 검토 기능입니다. 발화별 평가가 각 메시지 아래에 인라인으로 표시됩니다.
라이브 에이전트 뷰어
일시 정지, 재개, 지시 전송, 제어권 인계 기능을 갖춘 실시간 관찰입니다. 에이전트가 작업하는 동안 SSE로 동작을 스트리밍합니다.
코딩 트레이스 표시
코딩 에이전트를 위한 전용 표시입니다. 통합 diff 뷰, 어두운 터미널 블록, 줄 번호가 표시된 파일 읽기, 파일 트리 사이드바를 제공합니다.
에이전트용 주석 스키마
트레이스, 단계, 비교 수준에서 구조화된 에이전트 평가를 위한 전용 스키마입니다.
궤적 평가
계층적 오류 분류 체계, 심각도 점수화, 그리고 심각도에 따라 점수를 차감하는 실시간 점수 추적기를 갖춘 단계별 오류 위치 식별입니다.
루브릭 평가
MT-Bench 방식의 다중 기준 격자입니다. 사용자 지정 기준과 평가 척도를 정의하세요. 주석자가 각 차원을 독립적으로 평가합니다.
쌍대 비교
두 에이전트 트레이스를 나란히 비교합니다. 이진 선호, 연속 척도, 차원별 다중 기준 판단의 세 가지 모드를 제공합니다.
발화별 평가
평가 스키마를 대화 발화에 직접 연결합니다. 어떤 화자 유형을 평가할지 설정하세요. 평가가 각 발화 아래에 인라인으로 표시됩니다.
프로세스 보상
첫 번째로 잘못된 단계를 클릭하면 이후 단계가 모두 자동 표시됩니다. 또는 각 단계를 독립적으로 평가하세요. PRM 학습 형식으로 바로 내보냅니다.
코드 리뷰
코딩 에이전트 출력에 대한 인라인 diff 댓글, 파일 수준 품질 평가, 승인/거부 판정을 갖춘 GitHub PR 방식의 주석입니다.
어떤 프레임워크에서든 트레이스 가져오기
Potato는 13개 에이전트 프레임워크의 트레이스를 범용 형식으로 변환합니다. CLI 변환기나 실시간 웹훅 수집을 사용하세요.
| 변환기 | 출처 | 주요 기능 |
|---|---|---|
| LangChain / LangSmith | LangChain 생태계 | 계층적 실행, 도구 호출 |
| Langfuse | Langfuse 관측 | 관찰 스팬, 점수 |
| OpenAI | OpenAI API | 함수 호출, 어시스턴트 |
| Anthropic Claude | Anthropic API | 도구 사용, 사고 블록 |
| MCP | Model Context Protocol | 도구 + 리소스 호출 |
| OpenTelemetry | 분산 시스템 | 스팬 계층, 속성 |
| ATIF | 학술 형식 | 표준 교환 |
| WebArena | 웹 벤치마크 | 스크린샷, 요소 타기팅 |
| 원시 브라우저 | 브라우저 녹화 | HAR + 스크린샷 |
| Claude Code | Anthropic Messages API | 도구 사용 블록, 코드 diff |
| Aider | Aider 채팅 세션 | Markdown 편집 블록 |
| SWE-Agent | 코딩 벤치마크 | 사고/행동/관찰 |
| ReAct | 범용 에이전트 | 사고/행동/관찰 |
코딩 에이전트 평가하기
Claude Code, Aider, SWE-Agent 등 AI 코딩 어시스턴트를 위한 diff, 터미널, 파일 표시를 갖춘 전용 렌더링입니다.
에이전트가 작동하는 모습을 실시간으로 지켜보기
코딩 에이전트가 파일을 읽고, 코드를 편집하고, 테스트를 실행하는 모습을 관찰하세요. 잘못될 때 개입할 수 있습니다.
Ollama
완전히 로컬에서 실행되며 API 키가 필요 없습니다. Ollama 호환 모델이라면 무엇이든 사용할 수 있습니다.
Anthropic API
코딩 에이전트 세션을 위한 도구 사용 기능을 갖춘 Claude입니다.
Claude Agent SDK
도구 사용과 파일 작업을 갖춘 완전한 Claude Code 기능입니다.
Potato 비교
코딩 에이전트 diff 렌더링, PRM 주석, 라이브 관찰, 13종 형식 트레이스 변환을 갖춘 유일한 무료 셀프 호스팅 도구입니다.
| 기능 | Potato | LangSmith | Langfuse | Label Studio | Argilla | Scale AI |
|---|---|---|---|---|---|---|
| 트레이스 형식 지원 | 13종 형식 | LangChain 전용 | Langfuse 전용 | 범용 | 범용 | 사용자 지정 |
| 단계별 주석 | trajectory_eval + PRM | 제한적 | 제한적 | 예 | 아니요 | 예 |
| 실시간 에이전트 관찰 | 예 | 아니요 | 아니요 | 아니요 | 아니요 | 아니요 |
| 에이전트 일시 정지/재개/인계 | 예 | 아니요 | 아니요 | 아니요 | 아니요 | 아니요 |
| 코드 diff 렌더링 | 예 | 아니요 | 아니요 | 아니요 | 아니요 | 아니요 |
| 터미널 출력 렌더링 | 예 | 아니요 | 아니요 | 아니요 | 아니요 | 아니요 |
| PRM 데이터 수집 | 예 | 아니요 | 아니요 | 아니요 | 아니요 | 아니요 |
| 인라인 댓글이 포함된 코드 리뷰 | 예 | 아니요 | 아니요 | 아니요 | 아니요 | 아니요 |
| 쌍대 에이전트 비교 | 3가지 모드 | 아니요 | 아니요 | 아니요 | 아니요 | 예 |
| 다중 기준 루브릭 | 예 | 아니요 | 아니요 | 아니요 | 아니요 | 예 |
| 셀프 호스팅 | 예 | 아니요 | 예 | 예 | 예 | 아니요 |
| 무료 | 예 | 아니요 | 부분적 | 부분적 | 예 | 아니요 |
바로 실행 가능한 예제 프로젝트 14종
각 예제에는 설정, 샘플 데이터, 문서가 함께 제공됩니다. 어떤 예제든 1분 안에 실행할 수 있습니다.
에이전트 트레이스 평가
작업 성공, MAST 오류 분류 체계, 발화별 평가, 스팬 주석
웹 에이전트 검토
스크린샷, SVG 오버레이, 필름스트립을 갖춘 웹 브라우징 트레이스
웹 에이전트 생성
주석자가 웹을 탐색하면 그 상호작용이 트레이스 데이터가 됩니다
라이브 에이전트 평가
일시 정지와 지시 제어로 AI 에이전트의 웹 브라우징을 실시간으로 지켜봅니다
대화형 VLM 평가
trajectory_eval 점수화를 이용한 비전-언어 모델 관찰
SWE-bench 평가
diff 렌더링과 PRM을 이용한 코딩 에이전트 패치 평가
Anthropic 평가
단계별 정확성을 이용한 Claude 도구 사용 트레이스 평가
OpenAI 평가
OpenAI 함수 호출 트레이스 평가 및 오류 분류 체계
LangChain 통합
웹훅을 통한 LangSmith의 실시간 트레이스 수집
멀티 에이전트 평가
CrewAI, AutoGen, LangGraph 멀티 에이전트 협업 트레이스
에이전트 비교
이진 선호를 이용한 나란히 보기 A/B 에이전트 비교
다차원 비교
필수 근거가 포함된 차원별 쌍대 판단
RAG 평가
RAG 파이프라인: 검색 관련성, 충실성, 인용
비주얼 에이전트 평가
GUI 에이전트의 그라운딩 정확도 및 내비게이션 점수화