웹 에이전트 평가
스크린샷과 액션 오버레이로 웹 브라우징 에이전트를 평가하고, 단계별 웹 액션의 정확성을 Potato의 웹 에이전트 디스플레이로 판정하는 방법.
웹 에이전트는 페이지 사이를 브라우징하고, 클릭하고, 입력하고, 스크롤하면서 작업을 수행합니다. 이를 평가한다는 것은 각 단계에서 에이전트가 무엇을 보았는지(스크린샷)와 무엇을 했는지(액션)를 확인하고, 그 액션이 옳았는지 판정하는 것입니다. Potato는 각 액션을 시각적 오버레이와 함께 스크린샷에 렌더링하므로, 어노테이터는 브라우징 세션을 필름스트립처럼 되돌아볼 수 있습니다.
이는 WebArena와 Mind2Web 같은 벤치마크에 대응하는 인간 평가의 측면입니다. 웹 에이전트 어노테이션을 참조하십시오.
어노테이터에게 표시되는 것
Potato의 웹 에이전트 디스플레이는 각 단계에 대해 다음을 보여 줍니다.
- 그 시점 페이지의 스크린샷,
- 액션을 표시하는 오버레이, 클릭한 위치에는 원, 입력한 필드에는 상자, 스크롤에는 화살표,
- 액션 설명과 대상 요소,
- 단계 사이를 이동하는 필름스트립.
단계마다 무엇을 판정할 것인가
- 대상이 맞는가? 올바른 요소를 클릭/입력했는가?
- 액션 유형이 맞는가? 클릭인가, 입력인가, 스크롤인가, 이동인가.
- 진전이 있는가? 그 단계가 작업을 앞으로 진행시켰는가, 아니면 턴을 낭비했는가?
yaml
annotation_schemes:
- annotation_type: per_turn_rating
name: web_action_correctness
description: "Judge each browsing action against the task."
target: agentic_steps
rating_type: radio
labels: ["Correct", "Wrong target", "Wrong action", "No progress"]디스플레이 설정하기
Potato를 웹 에이전트 트레이스(스크린샷과 액션)로 지정하고 웹 에이전트 디스플레이를 활성화하십시오. 트레이스는 WebArena/VisualWebArena 내보내기에서 가져올 수도 있고, 직접 실행한 결과를 HAR과 스크린샷 형식으로 만든 것일 수도 있습니다. 트레이스 스키마는 웹 에이전트 어노테이션을 참조하십시오.
품질 고려 사항
- 스크린샷은 읽을 수 있어야 합니다. 합리적인 최대 너비를 설정하고 오버레이가 대상을 가리지 않도록 하십시오.
- 긴 세션은 어노테이터를 지치게 합니다. 필름스트립과 단계 번호는 어디까지 진행했는지 파악하는 데 도움이 됩니다.
- 작업 전체의 성공 여부에 대해서는 단계별 평가에 더해 트라젝토리 단위 레이블을 추가하십시오. 에이전트 트라젝토리 어노테이션을 참조하십시오.