Question 1

Claude Code, Cursor, SWE-Agent 같은 코딩 에이전트의 트레이스를 평가할 수 있나요?

Accepted Answer

네. Potato에는 Claude Code, OpenCode, Cursor, Aider, SWE-Agent용 기본 트레이스 변환기가 있습니다. 도구 호출은 전용 UI로 렌더링됩니다. Edit/Write는 적색/녹색 통합 diff 뷰로, Bash는 어두운 고정폭 터미널 블록으로, Read/Grep은 줄 번호가 표시된 코드로, 그리고 작업별로 변경된 모든 파일을 그룹화한 파일 트리 사이드바로 표시됩니다. 긴 출력은 자동으로 접힙니다.

Question 2

웹 브라우징 에이전트를 평가할 수 있나요?

Accepted Answer

네. Potato에는 클릭 마커, 바운딩 박스, 마우스 경로, 스크롤 표시기를 위한 SVG 오버레이를 갖춘 웹 에이전트 표시가 포함되어 있습니다. 두 가지 모드가 있는데, 사전 녹화된 스크린샷을 필름스트립으로 탐색하는 검토 모드와, iframe 기반 실시간 웹 브라우징에서 상호작용을 자동으로 기록하는 생성 모드입니다. WebArena, Mind2Web, Anthropic Computer Use 형식용 트레이스 변환기가 제공됩니다.

Question 3

여러 에이전트가 협력하는 멀티 에이전트 시스템을 평가할 수 있나요?

Accepted Answer

네. Potato는 멀티 에이전트 실행을 에이전트와 핸드오프로 이루어진 클릭 가능한 상호작용 그래프로 렌더링하고, 실패를 책임 에이전트와 스텝에 귀인하고, 에이전트 간 정렬 불일치를 위해 모든 핸드오프를 검토하고, 각 에이전트와 팀을 점수 매기고, 에이전트 전반의 도구 경합과 창발적 행동을 태깅하는 스키마를 더합니다. 멀티 에이전트 팀 평가 문서를 참고하세요.

Question 4

컴퓨터 사용, 음성, 비디오 에이전트를 평가할 수 있나요?

Accepted Answer

네. Potato는 멀티모달 에이전트를 위한 전용 스키마를 갖추고 있습니다. 스텝별 스크린샷과 클릭 그라운딩이 있는 GUI/컴퓨터 사용 트라젝토리, 끼어들기 탐지가 있는 풀듀플렉스 음성 타임라인, 모델 예측 대비 라이브 IoU가 있는 비디오 시간 그라운딩, 정렬된 음성-트랜스크립트 오류 태깅, 교차 멀티모달 추론, 그리고 문서 표 격자 구조가 그것입니다. 멀티모달 에이전트 평가 문서를 참고하세요.

Question 5

주석자가 AI 에이전트의 웹 브라우징을 실시간으로 지켜볼 수 있나요?

Accepted Answer

네. 라이브 에이전트 모드는 LLM 비전 모델(Playwright를 통한 Anthropic Claude)을 헤드리스 브라우저에 연결합니다. 에이전트가 스크린샷을 찍고 LLM이 동작을 계획하면, Potato는 Server-Sent Events로 세션을 주석자에게 스트리밍합니다. 주석자는 세션 중간에 일시 정지하거나, 지시를 보내거나, 수동 제어로 전환할 수 있습니다. `live_agent` 표시 유형으로 설정합니다.

Question 6

평가 중에 에이전트 세션을 되감거나, 분기하거나, 다시 재생할 수 있나요?

Accepted Answer

네. 코딩 에이전트 모드는 어느 단계에서든 체크포인트/롤백을 지원하며, 대안 궤적을 탐색하기 위한 분기/재생도 지원합니다. 반사실적 평가, 에이전트 결정 간 A/B 비교, 그리고 주석자가 에이전트 실행을 반복적으로 다듬으며 고품질 학습 데이터를 수집하는 데 유용합니다.

Question 7

에이전트 궤적의 개별 단계 수준에서 오류를 주석할 수 있나요?

Accepted Answer

네. trajectory_eval 스키마(TRAIL 및 AgentRewardBench 기반)는 각 단계를 카드로 표시합니다. 주석자는 정확성을 표시하고, 하위 유형(추론, 실행, 안전 등)을 갖춘 설정 가능한 분류 체계로 오류 유형을 분류하며, 가중 점수로 심각도를 지정하고, 단계별 근거를 작성합니다. 자동 계산된 품질 점수가 궤적 전반의 심각도 감점을 집계합니다.

Question 8

프로세스 보상 모델(PRM)과 코드 리뷰 학습 데이터를 수집할 수 있나요?

Accepted Answer

네. Potato는 코딩 에이전트의 단계 수준 평가를 위한 프로세스 보상 및 코드 리뷰 스키마를 제공합니다. 두 주석 유형 모두 후속 RLHF 학습을 위해 PRM 및 DPO 형식으로 직접 내보낼 수 있습니다. coding-agent-evaluation 예제 프로젝트를 참고하세요.

Question 9

주석자가 에이전트를 평가하면서 LLM에게 도움을 요청할 수 있나요?

Accepted Answer

네. LLM 채팅 사이드바는 다중 턴 대화를 지원하는 접이식 AI 어시스턴트 패널입니다. 작업 설명, 레이블 집합, 현재 인스턴스 텍스트를 컨텍스트로 받습니다. OpenAI, Anthropic, Ollama에 대해 다중 턴을 기본 지원합니다. 모든 대화는 주석자-LLM 협업의 추후 분석을 위해 행동 데이터로 기록됩니다.

Question 10

LangChain으로 만든 에이전트에 Potato를 사용할 수 있나요?

Accepted Answer

네. Potato는 LangChain/LangSmith 트레이스를 자동으로 변환합니다. 또한 웹훅으로 실시간 트레이스 수집을 설정해 새 트레이스가 생성되는 즉시 주석자 대기열에 표시되도록 할 수 있습니다.

Question 11

제 LangChain 앱에서 에이전트 트레이스를 자동으로 수집할 수 있나요?

Accepted Answer

네. `pip install potato-annotation[langchain]`을 설치하고 체인에 `PotatoCallbackHandler`를 연결하세요. 이 핸들러는 상위-하위 체인/LLM/도구 실행을 추적하고 루트 완료 시 LangSmith 호환 페이로드를 Potato로 전송합니다. 웹훅 수신기와 결합하면 수동 내보내기 없이 라이브 에이전트 트레이스를 주석 대기열로 수집할 수 있습니다.

Question 12

Potato가 기본적으로 지원하는 에이전트 트레이스 형식은 무엇인가요?

Accepted Answer

세 가지 범주에 걸쳐 13종 형식을 지원합니다. **프레임워크**: LangChain, LangFuse, OpenAI, Anthropic, MCP(Model Context Protocol), OpenTelemetry, ATIF. **웹 에이전트**: WebArena, 원시 웹 트레이스. **코딩 에이전트**: Claude Code, Aider, SWE-Agent. 여기에 모든 사용자 지정 형식을 위한 `structured_turns` 스키마와 함께 범용 JSONL 수집 경로도 제공됩니다. 전체 목록은 /integrations를 참고하세요.

Question 13

하나의 에이전트 주석 작업에서 여러 평가 스키마를 결합할 수 있나요?

Accepted Answer

네. 코딩 에이전트 프로젝트는 동일한 트레이스에 trajectory_eval(단계별 오류), 스팬 주석(에이전트 추론에서 환각 강조), 쌍대 비교(어느 에이전트가 더 나은지), 리커트 평가(전반적 품질)를 함께 적용할 수 있습니다. Potato의 다중 스키마 아키텍처 덕분에 주석자는 같은 트레이스에 대한 모든 스키마를 하나의 인터페이스에서 봅니다.

Question 14

라이브 에이전트 평가에 GPU나 API 키가 필요한가요?

Accepted Answer

아니요. 라이브 에이전트는 API 키 없이 완전히 로컬에서 추론하는 Ollama를 지원합니다. 비전 기능을 지원하는 Ollama 호환 모델이라면 무엇이든 사용할 수 있습니다. 코딩 에이전트의 경우 어떤 Ollama 모델이든 작동합니다.

Question 15

멀티 에이전트 시스템을 평가할 수 있나요?

Accepted Answer

네. Potato는 CrewAI, AutoGen, LangGraph 트레이스 형식을 지원합니다. 멀티 에이전트 평가 예제는 에이전트 협업, 중복 작업, 의사소통 품질을 평가하는 방법을 보여줍니다.

Question 16

제 에이전트 프레임워크가 목록에 없으면 어떻게 하나요?

Accepted Answer

범용 ReAct 변환기(사고/행동/관찰 형식)를 사용하거나 웹훅 API로 어떤 JSON 형식의 트레이스든 전송하세요. Potato는 일반적인 구조를 자동으로 감지합니다. Python으로 사용자 지정 변환기를 작성할 수도 있습니다.

Question 17

주석자가 평가 중에 에이전트와 상호작용할 수 있나요?

Accepted Answer

네. 라이브 에이전트 모드에서는 주석자가 에이전트를 일시 정지하거나, 텍스트 지시를 보내거나, 수동 제어로 전환할 수 있습니다. 코딩 에이전트의 경우 주석자는 어느 체크포인트로든 롤백하고 다른 지시로 분기할 수 있습니다.

Question 18

학습용 에이전트 주석은 어떻게 내보내나요?

Accepted Answer

agent_eval 내보내기를 사용하세요: `python -m potato.export -f agent_eval -o results/`. PRM 데이터는 `-f prm`을, DPO/RLHF 선호 쌍은 `-f dpo`를 사용합니다. 내보내기는 JSON/CSV 형식으로 생성됩니다.

에이전트 평가

에이전트 평가

아직 궁금한 점이 있으신가요?