Skip to content

에이전트 평가

Potato에 관한 일반적인 질문의 답변을 찾아보세요. 원하는 내용을 찾지 못하셨나요? Discord에 참여하거나 문서를 확인해 보세요.

에이전트 평가

네. Potato에는 Claude Code, OpenCode, Cursor, Aider, SWE-Agent용 기본 트레이스 변환기가 있습니다. 도구 호출은 전용 UI로 렌더링됩니다. Edit/Write는 적색/녹색 통합 diff 뷰로, Bash는 어두운 고정폭 터미널 블록으로, Read/Grep은 줄 번호가 표시된 코드로, 그리고 작업별로 변경된 모든 파일을 그룹화한 파일 트리 사이드바로 표시됩니다. 긴 출력은 자동으로 접힙니다.

네. Potato에는 클릭 마커, 바운딩 박스, 마우스 경로, 스크롤 표시기를 위한 SVG 오버레이를 갖춘 웹 에이전트 표시가 포함되어 있습니다. 두 가지 모드가 있는데, 사전 녹화된 스크린샷을 필름스트립으로 탐색하는 검토 모드와, iframe 기반 실시간 웹 브라우징에서 상호작용을 자동으로 기록하는 생성 모드입니다. WebArena, Mind2Web, Anthropic Computer Use 형식용 트레이스 변환기가 제공됩니다.

네. 라이브 에이전트 모드는 LLM 비전 모델(Playwright를 통한 Anthropic Claude)을 헤드리스 브라우저에 연결합니다. 에이전트가 스크린샷을 찍고 LLM이 동작을 계획하면, Potato는 Server-Sent Events로 세션을 주석자에게 스트리밍합니다. 주석자는 세션 중간에 일시 정지하거나, 지시를 보내거나, 수동 제어로 전환할 수 있습니다. `live_agent` 표시 유형으로 설정합니다.

네. 코딩 에이전트 모드는 어느 단계에서든 체크포인트/롤백을 지원하며, 대안 궤적을 탐색하기 위한 분기/재생도 지원합니다. 반사실적 평가, 에이전트 결정 간 A/B 비교, 그리고 주석자가 에이전트 실행을 반복적으로 다듬으며 고품질 학습 데이터를 수집하는 데 유용합니다.

네. trajectory_eval 스키마(TRAIL 및 AgentRewardBench 기반)는 각 단계를 카드로 표시합니다. 주석자는 정확성을 표시하고, 하위 유형(추론, 실행, 안전 등)을 갖춘 설정 가능한 분류 체계로 오류 유형을 분류하며, 가중 점수로 심각도를 지정하고, 단계별 근거를 작성합니다. 자동 계산된 품질 점수가 궤적 전반의 심각도 감점을 집계합니다.

네. Potato는 코딩 에이전트의 단계 수준 평가를 위한 프로세스 보상 및 코드 리뷰 스키마를 제공합니다. 두 주석 유형 모두 후속 RLHF 학습을 위해 PRM 및 DPO 형식으로 직접 내보낼 수 있습니다. coding-agent-evaluation 예제 프로젝트를 참고하세요.

네. LLM 채팅 사이드바는 다중 턴 대화를 지원하는 접이식 AI 어시스턴트 패널입니다. 작업 설명, 레이블 집합, 현재 인스턴스 텍스트를 컨텍스트로 받습니다. OpenAI, Anthropic, Ollama에 대해 다중 턴을 기본 지원합니다. 모든 대화는 주석자-LLM 협업의 추후 분석을 위해 행동 데이터로 기록됩니다.

네. Potato는 LangChain/LangSmith 트레이스를 자동으로 변환합니다. 또한 웹훅으로 실시간 트레이스 수집을 설정해 새 트레이스가 생성되는 즉시 주석자 대기열에 표시되도록 할 수 있습니다.

네. `pip install potato-annotation[langchain]`을 설치하고 체인에 `PotatoCallbackHandler`를 연결하세요. 이 핸들러는 상위-하위 체인/LLM/도구 실행을 추적하고 루트 완료 시 LangSmith 호환 페이로드를 Potato로 전송합니다. 웹훅 수신기와 결합하면 수동 내보내기 없이 라이브 에이전트 트레이스를 주석 대기열로 수집할 수 있습니다.

세 가지 범주에 걸쳐 13종 형식을 지원합니다. **프레임워크**: LangChain, LangFuse, OpenAI, Anthropic, MCP(Model Context Protocol), OpenTelemetry, ATIF. **웹 에이전트**: WebArena, 원시 웹 트레이스. **코딩 에이전트**: Claude Code, Aider, SWE-Agent. 여기에 모든 사용자 지정 형식을 위한 `structured_turns` 스키마와 함께 범용 JSONL 수집 경로도 제공됩니다. 전체 목록은 /integrations를 참고하세요.

네. 코딩 에이전트 프로젝트는 동일한 트레이스에 trajectory_eval(단계별 오류), 스팬 주석(에이전트 추론에서 환각 강조), 쌍대 비교(어느 에이전트가 더 나은지), 리커트 평가(전반적 품질)를 함께 적용할 수 있습니다. Potato의 다중 스키마 아키텍처 덕분에 주석자는 같은 트레이스에 대한 모든 스키마를 하나의 인터페이스에서 봅니다.

아니요. 라이브 에이전트는 API 키 없이 완전히 로컬에서 추론하는 Ollama를 지원합니다. 비전 기능을 지원하는 Ollama 호환 모델이라면 무엇이든 사용할 수 있습니다. 코딩 에이전트의 경우 어떤 Ollama 모델이든 작동합니다.

네. Potato는 CrewAI, AutoGen, LangGraph 트레이스 형식을 지원합니다. 멀티 에이전트 평가 예제는 에이전트 협업, 중복 작업, 의사소통 품질을 평가하는 방법을 보여줍니다.

범용 ReAct 변환기(사고/행동/관찰 형식)를 사용하거나 웹훅 API로 어떤 JSON 형식의 트레이스든 전송하세요. Potato는 일반적인 구조를 자동으로 감지합니다. Python으로 사용자 지정 변환기를 작성할 수도 있습니다.

네. 라이브 에이전트 모드에서는 주석자가 에이전트를 일시 정지하거나, 텍스트 지시를 보내거나, 수동 제어로 전환할 수 있습니다. 코딩 에이전트의 경우 주석자는 어느 체크포인트로든 롤백하고 다른 지시로 분기할 수 있습니다.

agent_eval 내보내기를 사용하세요: `python -m potato.export -f agent_eval -o results/`. PRM 데이터는 `-f prm`을, DPO/RLHF 선호 쌍은 `-f dpo`를 사용합니다. 내보내기는 JSON/CSV 형식으로 생성됩니다.

아직 궁금한 점이 있으신가요?

커뮤니티가 도와드립니다. 실시간 지원이 필요하면 Discord에 참여하거나, 자세한 안내가 필요하면 문서를 살펴보세요.