Skip to content

Evaluation von Computer-Use- und multimodalen Agenten

Wie man Computer-Use- und GUI-Agenten sowie Sprach-, Video- und Dokument-Agenten menschlich evaluiert, jede Aktion und jeden Klick beurteilt, den Sprecherwechsel bewertet und Ereignisse zeitlich verortet.

Ein Computer-Use-Agent steuert eine grafische Oberfläche so, wie es eine Person tun würde: Er liest einen Screenshot, entscheidet sich für eine Aktion (klicken, tippen, scrollen) und handelt. Ihn zu evaluieren bedeutet, Schritt für Schritt zu prüfen, ob jede Aktion richtig war und ob der Klick tatsächlich auf dem beabsichtigten Element landete, nicht nur, ob die Aufgabe schließlich gelang. Potato ist ein Open-Source-Werkzeug für die menschliche Evaluation von Computer-Use-, GUI-, Sprach-, Video- und Dokument-Agenten, mit Annotationsoberflächen, die für jede Modalität zweckgebaut sind.

Ein Computer-Use-Agent (auch GUI- oder OS-Agent genannt) nimmt den Bildschirm als Pixel oder DOM wahr und handelt über dieselben Steuerelemente, die ein Nutzer hat. Benchmarks wie OSWorld, ScreenSpot und AndroidWorld bewerten den Aufgabenerfolg automatisch; die menschliche Durchsicht ergänzt, was die Automatisierung übersieht, die Aktion, die durch Glück das richtige Ergebnis erzeugte, oder den Klick, der die falsche Schaltfläche traf, aber die Aufgabe trotzdem voranbrachte.

Was beurteilt man in einer Computer-Use-Trajektorie?

Jeder Schritt paart einen Screenshot (was der Agent sah) mit einer Aktion (was er tat). Die annotierende Person beurteilt die Aktion und prüft, wenn der Schritt Klick-Koordinaten enthält, den Grounding-Marker auf dem Screenshot:

  • Aktionskorrektheit: korrekt, falsches Element, falsche Aktion oder halluziniert.
  • Klick-Grounding: Landeten die Koordinaten auf dem Element, das die Aktion benannte?
  • Ergebnis: Schloss der Lauf die Aufgabe ab, und bei welchem Schritt ging er zuerst schief?
yaml
annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

Den ersten falschen Schritt abzufangen zählt mehr als ein einzelnes Pass/Fail, denn dieser Schritt ist das, was du beheben oder trainieren würdest; siehe Process Reward Models.

Wie evaluiere ich den Sprecherwechsel eines Sprach-Agenten?

Gesprochene Agenten scheitern an den Nahtstellen zwischen den Turns: Sie unterbrechen den Nutzer, reden über ihn hinweg oder pausieren zu lange. Das Schema voice_interaction legt das Gespräch als zweispurige Zeitleiste aus und hebt Überlappungsbereiche hervor, in denen beide Sprecher gleichzeitig reden, die die annotierende Person klassifiziert (der Agent sollte antworten, sollte fortfahren, war ein Rückmeldelaut oder es ist unklar) und dann den Sprecherwechsel insgesamt bewertet. Das ist die Voll-Duplex-Ansicht, die ein flaches Transkript nicht ausdrücken kann.

Wie bewerte ich Video- und Dokument-Agenten?

  • Zeitliche Video-Verortung: Markiere für jeden Ereignis-Prompt das Gold-[start, end]-Intervall; wenn die Daten ein vom Modell vorhergesagtes Intervall enthalten, aktualisiert sich ein Live-IoU, während du anpasst, sodass du die Verortung direkt bewertest.
  • Sprachtranskripte: Tagge ASR-/TTS-Fehler Segment für Segment und korrigiere den Text inline.
  • Dokumenttabellen: Markiere die Zellstruktur (Spaltenüberschriften, Zeilenüberschriften, Daten, leer), die Bounding-Boxen nicht erfassen können.
  • Verschränktes Reasoning: Bewerte jeden Schritt einer Text-Bild-Tool-Spur auf Kohärenz und kennzeichne visuelle Halluzinationen.

Jedes ist ein eigenes Schema in der Referenz für multimodale Agenten, und mehrere können bei derselben Aufgabe laufen.

Welches Schema sollte ich verwenden?

AgententypSchemaWas du labelst
Computer-Use / GUIgui_trajectoryAktionskorrektheit + Klick-Grounding
Sprache / gesprochenvoice_interactionBarge-in-Handhabung und Sprecherwechsel
Videotemporal_groundingGold-Ereignisintervalle vs. Vorhersage (IoU)
Sprachtranskriptspeech_transcriptASR-/TTS-Fehler pro Segment
Dokument / Tabelletable_gridRollen der Zellstruktur
Multimodales Reasoningmultimodal_reasoningSchritt-Kohärenz und visuelle Halluzination

Weiterführende Lektüre