Skip to content

컴퓨터 사용 및 멀티모달 에이전트 평가

컴퓨터 사용 및 GUI 에이전트와 더불어 음성, 비디오, 문서 에이전트를 사람이 평가하는 방법입니다. 각 행동과 클릭을 판단하고, 턴 주고받기를 점수 매기며, 이벤트를 시간 축에 그라운딩합니다.

컴퓨터 사용 에이전트는 사람이 하듯 그래픽 인터페이스를 조작합니다. 스크린샷을 읽고, 행동(클릭, 입력, 스크롤)을 결정하고, 행동합니다. 이런 에이전트를 평가한다는 것은 작업이 결국 성공했는지만이 아니라, 스텝 단위로 각 행동이 옳았는지 그리고 클릭이 실제로 의도한 요소에 떨어졌는지를 확인하는 것을 의미합니다. Potato는 컴퓨터 사용, GUI, 음성, 비디오, 문서 에이전트를 사람이 평가하기 위한 오픈소스 도구로, 각 모달리티에 전용으로 만들어진 어노테이션 화면을 제공합니다.

컴퓨터 사용 에이전트(GUI 또는 OS 에이전트라고도 함)는 화면을 픽셀이나 DOM으로 인식하고 사용자가 가진 것과 동일한 컨트롤을 통해 행동합니다. OSWorld, ScreenSpot, AndroidWorld 같은 벤치마크는 작업 성공을 자동으로 점수 매깁니다. 사람의 검토는 자동화가 놓치는 것을 더합니다. 운 좋게 올바른 결과를 낳은 행동, 또는 엉뚱한 버튼을 눌렀지만 그래도 작업을 진척시킨 클릭 같은 것들입니다.

컴퓨터 사용 트라젝토리에서 무엇을 판단하나요?

각 스텝은 스크린샷(에이전트가 본 것)을 행동(에이전트가 한 것)과 짝짓습니다. 어노테이터는 행동을 판단하고, 스텝에 클릭 좌표가 있을 때는 스크린샷 위의 그라운딩 마커를 확인합니다.

  • 행동의 정확성: 올바름, 잘못된 요소, 잘못된 행동, 또는 환각.
  • 클릭 그라운딩: 좌표가 행동이 지목한 요소에 떨어졌는가?
  • 결과: 실행이 작업을 완수했는가, 그리고 어느 스텝에서 처음 잘못되었는가?
yaml
annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

처음 잘못된 스텝을 잡아내는 것이 단일한 합격/불합격보다 더 중요합니다. 그 스텝이야말로 고치거나 훈련의 대상으로 삼을 것이기 때문입니다. 프로세스 보상 모델을 참고하십시오.

음성 에이전트의 턴 주고받기를 어떻게 평가하나요?

음성 에이전트는 턴 사이의 이음새에서 실패합니다. 사용자의 말을 끊거나, 위로 겹쳐 말하거나, 너무 오래 멈추는 식입니다. voice_interaction 스키마는 대화를 듀얼 트랙 타임라인으로 펼치고 두 화자가 동시에 말하는 겹침 구간을 강조합니다. 어노테이터는 이를 분류하고(에이전트가 응답해야 함, 재개해야 함, 맞장구였음, 또는 불분명함) 전체적인 턴 주고받기를 평가합니다. 이는 평탄한 트랜스크립트가 표현할 수 없는 풀듀플렉스 화면입니다.

비디오와 문서 에이전트를 어떻게 점수 매기나요?

  • 비디오 시간 그라운딩: 각 이벤트 프롬프트에 대해 골드 [start, end] 구간을 표시합니다. 데이터에 모델의 예측 구간이 포함되면, 조정하는 동안 라이브 IoU가 갱신되므로 위치 측정을 직접 점수 매깁니다.
  • 음성 트랜스크립트: ASR/TTS 오류를 세그먼트 단위로 태깅하고 텍스트를 인라인으로 수정합니다.
  • 문서 표: 바운딩 박스가 포착할 수 없는 셀 구조(열 헤더, 행 헤더, 데이터, 비어 있음)를 표시합니다.
  • 교차 추론: 텍스트-이미지-도구 트레이스의 각 스텝을 일관성에 대해 평가하고 시각 환각을 표시합니다.

각각은 멀티모달 에이전트 레퍼런스의 별도 스키마이며, 여러 개를 같은 작업에서 실행할 수 있습니다.

어떤 스키마를 사용해야 하나요?

에이전트 유형스키마무엇을 레이블링하는가
컴퓨터 사용 / GUIgui_trajectory행동 정확성 + 클릭 그라운딩
음성 / 발화voice_interaction끼어들기 처리와 턴 주고받기
비디오temporal_grounding골드 이벤트 구간 대 예측 (IoU)
음성 트랜스크립트speech_transcript세그먼트별 ASR/TTS 오류
문서 / 표table_grid셀 구조 역할
멀티모달 추론multimodal_reasoning스텝 일관성과 시각 환각

더 읽어보기