라이브 에이전트 평가

Potato의 라이브 에이전트 화면을 사용해 AI 에이전트를 실시간으로 평가하는 방법, 즉 일시 정지, 지시 전송, 제어 인수, 롤백, 분기하는 방법을 설명합니다.

대부분의 에이전트 평가는 기록된 trace를 검토합니다. 라이브 평가는 에이전트가 실시간으로 실행되는 모습을 지켜보며 사람이 개입할 수 있게 합니다. 즉 일시 정지하고, 지시를 전송하고, 제어를 가져오고, 다른 경로를 시도하기 위해 롤백할 수 있습니다. 자신의 서버에서 사람이 개입하는 에이전트 평가를 하려면, Potato는 기록만으로는 담을 수 없는 것을 포착하는 오픈소스 도구입니다. 즉, 사람이 어디서 개입했을 것인지, 그리고 더 나은 안내가 어떤 모습인지를 보여 줍니다.

기능 레퍼런스는 라이브 에이전트 평가와 라이브 코딩 에이전트를 참조하십시오.

라이브 에이전트 평가는 무엇을 더해 주나요?

일시 정지와 재개: 에이전트를 작업 도중에 멈춰 그 상태를 살펴봅니다.
지시 전송: 안내로 방향을 잡아 주고 에이전트가 어떻게 적응하는지 관찰합니다.
제어 인수: 직접 조작한 뒤 제어권을 다시 넘깁니다. 인계 지점은 귀중한 레이블입니다.
롤백과 분기: 이전 단계로 돌아가 다른 대안을 시도하면서, 같은 상태에서 출발한 경로들을 비교합니다.

이를 통해 개입형 데이터, 즉 무엇이 도움이 되는지에 대한 반사실(counterfactual)을 얻으며, 이는 단순한 관찰 레이블이 아닙니다.

Potato에서 라이브 에이전트 평가를 어떻게 설정하나요?

라이브 모드는 엔드포인트(OpenAI 호환 프록시, 사용자 정의 HTTP 엔드포인트, 또는 코딩 에이전트 백엔드)를 통해 Potato를 실행 중인 에이전트에 연결합니다. 어노테이터는 라이브 에이전트 화면을 통해 상호작용합니다.

yaml

live_agent:
  endpoint_type: anthropic_vision   # or coding_agent, openai_proxy, ...
  ai_config:
    model: claude-sonnet-4-20250514
    api_key: ${ANTHROPIC_API_KEY}
  max_steps: 30
  allow_takeover: true
  allow_instructions: true

라이브 에이전트 평가는 언제 사용해야 하나요?

가이드라인 구축: 라이브로 지켜보면, 이후 배치 레이블링을 위해 분류 체계에 담아 둘 만한 실패 양상이 드러납니다.
대화형 작업: 채팅 어시스턴트와 도구를 사용하는 에이전트처럼, 판단 대상이 단순한 기록이 아니라 상호작용인 경우입니다.
스트레스 테스트: 에이전트가 살짝 미는 안내나 강제 우회 후에 어떻게 회복하는지 살펴봅니다.

라이브 평가는 기록된 trace를 검토하는 것보다 손이 더 많이 가고 처리량이 낮으므로, 집중된 표본이나 배치 작업을 설계할 때 가장 적합합니다. 대량 처리에는 기록된 실행에 대한 궤적 어노테이션으로 전환하십시오.

라이브 에이전트 평가

라이브 에이전트 평가는 무엇을 더해 주나요?

Potato에서 라이브 에이전트 평가를 어떻게 설정하나요?

라이브 에이전트 평가는 언제 사용해야 하나요?

더 읽어보기