Question 1

Kann ich Traces von Coding-Agenten wie Claude Code, Cursor oder SWE-Agent auswerten?

Accepted Answer

Ja. Potato bringt native Trace-Konverter für Claude Code, OpenCode, Cursor, Aider und SWE-Agent mit. Tool-Aufrufe werden mit einer zweckgebundenen UI dargestellt: rot-grüne Unified-Diff-Ansicht für Edit/Write, dunkle Monospace-Terminalblöcke für Bash, zeilennummerierter Code für Read/Grep und eine Datei-Tree-Sidebar, die alle berührten Dateien nach Operation gruppiert. Lange Ausgaben werden automatisch eingeklappt.

Question 2

Kann ich Web-Browsing-Agenten auswerten?

Accepted Answer

Ja. Potato enthält eine Web-Agent-Darstellung mit SVG-Overlays für Klickmarker, Bounding Boxes, Mauspfade und Scroll-Indikatoren. Zwei Modi: Review Mode für Filmstreifen-Navigation durch vorab aufgezeichnete Screenshots und Creation Mode für iframe-basiertes Live-Browsing mit automatischer Aufzeichnung der Interaktionen. Mitgeliefert werden Trace-Konverter für die Formate WebArena, Mind2Web und Anthropic Computer Use.

Question 3

Kann ich Multi-Agenten-Systeme mit mehreren kooperierenden Agenten evaluieren?

Accepted Answer

Ja. Potato stellt einen Multi-Agenten-Lauf als anklickbaren Interaktionsgraphen aus Agenten und Übergaben dar und ergänzt Schemas, um einen Fehler dem verantwortlichen Agenten und Schritt zuzuordnen, jede Übergabe auf agentenübergreifende Fehlausrichtung zu prüfen, jeden Agenten und das Team zu bewerten sowie Tool-Konkurrenz und emergentes Verhalten über Agenten hinweg zu taggen. Siehe die Dokumentation zur Evaluation von Multi-Agenten-Teams.

Question 4

Kann ich Computer-Use-, Sprach- oder Video-Agenten evaluieren?

Accepted Answer

Ja. Potato hat zweckgebaute Schemas für multimodale Agenten: GUI-/Computer-Use-Trajektorien mit Screenshots pro Schritt und Klick-Grounding, Voll-Duplex-Sprachzeitleisten mit Barge-in-Erkennung, zeitliche Video-Verortung mit einem Live-IoU gegenüber der Vorhersage des Modells, Fehler-Tagging an ausgerichteten Sprachtranskripten, verschränktes multimodales Reasoning und Tabellengitter-Struktur für Dokumente. Siehe die Dokumentation zur multimodalen Agenten-Evaluation.

Question 5

Können Annotator:innen einem KI-Agenten beim Browsen im Web in Echtzeit zusehen?

Accepted Answer

Ja. Der Live-Agent-Modus verbindet ein LLM-Vision-Modell (Anthropic Claude über Playwright) mit einem Headless-Browser. Der Agent macht Screenshots, das LLM plant Aktionen und Potato streamt die Sitzung per Server-Sent Events an die Annotator:innen. Während der Sitzung können sie pausieren, Anweisungen senden oder die manuelle Steuerung übernehmen. Konfigurierbar über den Anzeigetyp `live_agent`.

Question 6

Kann ich eine Agenten-Sitzung während der Auswertung zurückspulen, verzweigen oder erneut abspielen?

Accepted Answer

Ja. Der Coding-Agent-Modus unterstützt Checkpoint/Rollback an jedem Schritt sowie Branching/Replay zur Erkundung alternativer Trajektorien. Nützlich für kontrafaktische Auswertung, A/B-Vergleiche zwischen Agentenentscheidungen und das iterative Verfeinern eines Agentenlaufs durch Annotator:innen zur Sammlung hochwertiger Trainingsdaten.

Question 7

Kann ich Fehler auf Ebene einzelner Schritte einer Agenten-Trajektorie annotieren?

Accepted Answer

Ja. Das Schema trajectory_eval (basierend auf TRAIL und AgentRewardBench) zeigt jeden Schritt als Karte an. Annotator:innen markieren Korrektheit, klassifizieren Fehlertypen aus einer konfigurierbaren Taxonomie mit Subtypen (Reasoning, Execution, Safety usw.), vergeben gewichtete Schweregradwerte und schreiben Begründungen pro Schritt. Ein automatisch berechneter Qualitätswert aggregiert die Schweregradstrafen über die gesamte Trajektorie.

Question 8

Kann ich Trainingsdaten für Process-Reward-Models (PRM) und Code-Reviews sammeln?

Accepted Answer

Ja. Potato liefert Process-Reward- und Code-Review-Schemata für die Schritt-für-Schritt-Bewertung von Coding-Agenten. Beide Annotationstypen lassen sich direkt in die Formate PRM und DPO für nachgelagertes RLHF-Training exportieren. Siehe das Beispielprojekt coding-agent-evaluation.

Question 9

Können Annotator:innen ein LLM um Hilfe bitten, während sie einen Agenten auswerten?

Accepted Answer

Ja. Die LLM Chat Sidebar ist ein einklappbares KI-Assistenz-Panel mit mehrteiligem Dialog. Sie erhält Task-Beschreibung, Labelmenge und den Text der aktuellen Instanz als Kontext. Native Mehrturn-Unterstützung für OpenAI, Anthropic und Ollama. Alle Konversationen werden als Verhaltensdaten protokolliert, sodass die Zusammenarbeit zwischen Annotator:in und LLM später analysiert werden kann.

Question 10

Can I use Potato with agents built on LangChain?

Accepted Answer

Yes. Potato converts LangChain/LangSmith traces automatically.

Question 11

Kann ich Agenten-Traces automatisch aus meiner LangChain-App erfassen?

Accepted Answer

Ja. Installiere `pip install potato-annotation[langchain]` und hänge `PotatoCallbackHandler` an deine Chain. Er verfolgt Eltern-Kind-Beziehungen von Chains/LLMs/Tools und sendet beim Abschluss der Root-Chain LangSmith-kompatible Payloads an Potato. Kombiniert mit dem Webhook-Receiver kannst du Live-Agenten-Traces ohne manuelle Exporte in Annotations-Queues einspeisen.

Question 12

Welche Agenten-Trace-Formate unterstützt Potato out of the box?

Accepted Answer

Dreizehn Formate in drei Kategorien. **Frameworks**: LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF. **Web-Agenten**: WebArena, rohe Web-Traces. **Coding-Agenten**: Claude Code, Aider, SWE-Agent. Plus ein generischer JSONL-Ingest-Pfad mit dem Schema `structured_turns` für beliebige eigene Formate. Vollständige Liste siehe /integrations.

Question 13

Kann ich mehrere Bewertungsschemata in einer einzigen Agenten-Annotationsaufgabe kombinieren?

Accepted Answer

Ja. Ein Coding-Agent-Projekt kann trajectory_eval (Fehler pro Schritt), Span-Annotation (Halluzinationen im Agenten-Reasoning markieren), Pairwise-Vergleich (welcher Agent war besser) und Likert-Bewertungen (Gesamtqualität) auf derselben Trace übereinanderlegen. Potatos Multi-Schema-Architektur sorgt dafür, dass Annotator:innen alle Schemata in einer einzigen Oberfläche für dieselbe Trace sehen.

Question 14

Do I need a GPU or API key for live agent evaluation?

Accepted Answer

No. The live agent supports Ollama for fully local inference with no API key.

Question 15

Can I evaluate multi-agent systems?

Accepted Answer

Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.

Question 16

What if my agent framework is not listed?

Accepted Answer

Use the generic ReAct converter or the webhook API to send traces in any JSON format.

Question 17

Can annotators interact with agents during evaluation?

Accepted Answer

Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.

Question 18

How do I export agent annotations for training?

Accepted Answer

Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.

Agent Evaluation

Agent Evaluation

Noch Fragen?