Agenten, die sprechen, Videos schauen und Dokumente lesen, scheitern auf Weisen, die ein Textfeld nicht zeigen kann. Die Fehler eines Sprachagenten leben an den Nahtstellen zwischen den Runden; die Antwort eines Videoagenten ist ein Zeitintervall, kein Satz; der Fehler eines Dokumentenagenten ist eine falsch gelesene Tabellenzelle. Jede dieser braucht eine Prüfoberfläche, die auf die Modalität zugeschnitten ist. Potato fügt vier solche Oberflächen hinzu — Sprache, Video, Sprechen und Dokument — neben seinen bestehenden Anzeigen für Bild und Audio. Die vollständige Referenz ist Multimodale Agentenbewertung.

Jede Modalität bekommt ihre eigene Prüfoberfläche: Sprache, Video, Sprechen und Dokument Ein einfaches Text-Widget kann kein Barge-in, kein Ereignisintervall und keine Tabellenzelle ausdrücken

Wie bewerte ich den Sprecherwechsel eines Sprachagenten?

Gesprochene Agenten brechen an den Grenzen: Sie unterbrechen den Nutzer, reden über ihn hinweg oder pausieren so lange, dass der Nutzer aufgibt. Das Schema voice_interaction legt die Unterhaltung als zweispurige Zeitleiste aus — eine Nutzerspur und eine Agentenspur — und hebt die Überlappungsbereiche hervor, in denen beide gleichzeitig sprechen (Full-Duplex-Bench, 2025). Sie klassifizieren jede Überlappung und bewerten den gesamten Sprecherwechsel; das Audio wird inline abgespielt, wenn es vorhanden ist.

Eine zweispurige Sprachzeitleiste mit einem hervorgehobenen Barge-in-Bereich Zweispurige Sprachzeitleiste mit Barge-in-Erkennung und Bewertung des Sprecherwechsels

yaml

annotation_schemes:
  - annotation_type: voice_interaction
    name: turn_taking
    description: "Classify each barge-in/overlap and rate the overall turn-taking."
    turns_key: turns
    speaker_key: speaker
    user_speakers: [user, human, caller]
    overlap_labels: [agent_should_respond, agent_should_resume, backchannel, uncertain]
    rating_scale: 5

Die Überlappungen werden zur Renderzeit aus den Zeitangaben der Runden berechnet, sodass eine Vollduplex-Unterhaltung, die ein flaches Transkript zu „beide haben etwas gesagt“ verflachen würde, zu einer Menge konkreter, labelbarer Momente wird.

Wie bewerte ich die zeitliche Verankerung eines Videoagenten?

Die Antwort eines Videoagenten auf „Wann passiert das Ziel?“ ist ein Intervall, also bewerten Sie sie als solches. Das Schema temporal_grounding gibt Ihnen einen Scrubber, auf dem Sie für jeden Ereignis-Prompt das Gold-[start, end] markieren, indem Sie den Abspielkopf erfassen oder Sekunden eintippen. Wenn die Daten das vom Modell vorhergesagte Intervall tragen, aktualisieren sich ein live berechnetes IoU und eine Zweibalken-Mini-Zeitleiste, während Sie anpassen (TimeScope, 2025).

Ein Video-Scrubber mit einem Gold-Intervall und einer Live-IoU-Anzeige Markieren Sie Gold-Ereignisintervalle im Video mit einem live berechneten IoU gegenüber der Vorhersage des Modells

yaml

annotation_schemes:
  - annotation_type: temporal_grounding
    name: grounding
    description: "Mark the gold start/end interval for each event. IoU vs prediction updates live."
    video_key: video
    events_key: events

Das ist für die Lokalisierung von Vorhersage gegen Gold gebaut, was eine andere Aufgabe ist als allgemeines Segment-Labeling: Sie bewerten, wie nah die Spanne des Modells an der Wahrheit liegt, und zu sehen, wie sich das IoU bewegt, während Sie die Grenze ziehen, macht das unmittelbar.

Was ist mit Sprachtranskripten, Reasoning und Tabellen?

Drei weitere Oberflächen decken den Rest des multimodalen Spektrums ab:

Sprachtranskripte (speech_transcript): Jedes zeitlich ausgerichtete Segment ist eine Karte; Sie markieren ASR-/TTS-Fehler, Aussprachefehler und Sprechfehler und korrigieren den Text inline (Speak & Improve, 2025). Das ist die Ergänzung auf Segmentebene zur Sprecherwechsel-Ansicht.
Verschränktes Reasoning (multimodal_reasoning): ein Text-Bild-Tool-Trace, dargestellt als typisierte Blöcke; Sie bewerten die Kohärenz jedes Schritts und kennzeichnen visuelle Halluzinationen, bei denen das Reasoning nicht aus dem Bild folgt (Multimodal RewardBench 2, 2025).
Dokumenttabellen (table_grid): Sie legen die Gitterdimensionen fest und klicken Zellen an, um ihre Rolle zu markieren — Daten, Spaltenkopf, Zeilenkopf, leer — und erfassen so die Struktur, die Bounding-Boxes nicht können.

Sprachtranskript-Segmente mit Fehler-Tags pro Segment und Inline-Korrektur Markieren Sie ASR-/TTS-/Aussprachefehler pro Segment und korrigieren Sie das Transkript inline

yaml

annotation_schemes:
  - annotation_type: speech_transcript
    name: speech_errors
    description: "Tag speech errors on each segment and correct the transcript where needed."
    segments_key: segments
    error_types: [asr_error, tts_artifact, mispronunciation, disfluency]
    allow_correction: true

Verschränkter Reasoning-Trace mit einer gekennzeichneten visuellen Halluzination Bewerten Sie jeden Schritt eines Text-Bild-Tool-Reasoning-Traces auf Kohärenz und visuelle Halluzination

Mehrere dieser Schemata können in derselben Aufgabe laufen, sodass ein einzelner Dokumentenagenten-Lauf zugleich auf Tabellenstruktur und Reasoning-Kohärenz bewertet werden kann.

Ein Tabellenbild mit Zellen, die als Kopfzeilen, Daten und leer markiert sind Annotieren Sie die Zellenstruktur einer Dokumenttabelle: Spalten- und Zeilenköpfe, Daten und leere Zellen

Wie richte ich das ein?

Jede Oberfläche wird mit einem ausführbaren Beispiel unter examples/agent-traces/ ausgeliefert:

bash

pip install --upgrade potato-annotation
python potato/flask_server.py start examples/agent-traces/temporal-grounding/config.yaml -p 8000

Ihre Daten kommen als Runden, Segmente oder Ereignisse mit Zeitstempeln hinein; die Oberfläche leitet ihre Zeitleiste zur Renderzeit daraus ab. Für GUI- und OS-Agenten ist das Begleitstück Computer-Use-Agenten bewerten.

Weiterführende Lektüre

Multimodale Agentenbewertung — die vollständige Schemareferenz
Computer-Use- und multimodale Agenten bewerten — der Leitfaden mit einer Tabelle zur Schemaauswahl
Computer-Use-Agenten bewerten, Schritt für Schritt — die GUI- und OS-Hälfte der multimodalen Oberflächen
Potato 2.6.2: Eine vollständige Open-Source-Suite zur Agentenbewertung — alles in der 2.6.x-Reihe