Agent Evaluation
Finden Sie Antworten auf häufige Fragen zu Potato. Nicht gefunden, was Sie suchen? Treten Sie unserem Discord bei oder lesen Sie die Dokumentation.
Agent Evaluation
Ja. Potato bringt native Trace-Konverter für Claude Code, OpenCode, Cursor, Aider und SWE-Agent mit. Tool-Aufrufe werden mit einer zweckgebundenen UI dargestellt: rot-grüne Unified-Diff-Ansicht für Edit/Write, dunkle Monospace-Terminalblöcke für Bash, zeilennummerierter Code für Read/Grep und eine Datei-Tree-Sidebar, die alle berührten Dateien nach Operation gruppiert. Lange Ausgaben werden automatisch eingeklappt.
Ja. Potato enthält eine Web-Agent-Darstellung mit SVG-Overlays für Klickmarker, Bounding Boxes, Mauspfade und Scroll-Indikatoren. Zwei Modi: Review Mode für Filmstreifen-Navigation durch vorab aufgezeichnete Screenshots und Creation Mode für iframe-basiertes Live-Browsing mit automatischer Aufzeichnung der Interaktionen. Mitgeliefert werden Trace-Konverter für die Formate WebArena, Mind2Web und Anthropic Computer Use.
Ja. Der Live-Agent-Modus verbindet ein LLM-Vision-Modell (Anthropic Claude über Playwright) mit einem Headless-Browser. Der Agent macht Screenshots, das LLM plant Aktionen und Potato streamt die Sitzung per Server-Sent Events an die Annotator:innen. Während der Sitzung können sie pausieren, Anweisungen senden oder die manuelle Steuerung übernehmen. Konfigurierbar über den Anzeigetyp `live_agent`.
Ja. Der Coding-Agent-Modus unterstützt Checkpoint/Rollback an jedem Schritt sowie Branching/Replay zur Erkundung alternativer Trajektorien. Nützlich für kontrafaktische Auswertung, A/B-Vergleiche zwischen Agentenentscheidungen und das iterative Verfeinern eines Agentenlaufs durch Annotator:innen zur Sammlung hochwertiger Trainingsdaten.
Ja. Das Schema trajectory_eval (basierend auf TRAIL und AgentRewardBench) zeigt jeden Schritt als Karte an. Annotator:innen markieren Korrektheit, klassifizieren Fehlertypen aus einer konfigurierbaren Taxonomie mit Subtypen (Reasoning, Execution, Safety usw.), vergeben gewichtete Schweregradwerte und schreiben Begründungen pro Schritt. Ein automatisch berechneter Qualitätswert aggregiert die Schweregradstrafen über die gesamte Trajektorie.
Ja. Potato liefert Process-Reward- und Code-Review-Schemata für die Schritt-für-Schritt-Bewertung von Coding-Agenten. Beide Annotationstypen lassen sich direkt in die Formate PRM und DPO für nachgelagertes RLHF-Training exportieren. Siehe das Beispielprojekt coding-agent-evaluation.
Ja. Die LLM Chat Sidebar ist ein einklappbares KI-Assistenz-Panel mit mehrteiligem Dialog. Sie erhält Task-Beschreibung, Labelmenge und den Text der aktuellen Instanz als Kontext. Native Mehrturn-Unterstützung für OpenAI, Anthropic und Ollama. Alle Konversationen werden als Verhaltensdaten protokolliert, sodass die Zusammenarbeit zwischen Annotator:in und LLM später analysiert werden kann.
Yes. Potato converts LangChain/LangSmith traces automatically.
Ja. Installiere `pip install potato-annotation[langchain]` und hänge `PotatoCallbackHandler` an deine Chain. Er verfolgt Eltern-Kind-Beziehungen von Chains/LLMs/Tools und sendet beim Abschluss der Root-Chain LangSmith-kompatible Payloads an Potato. Kombiniert mit dem Webhook-Receiver kannst du Live-Agenten-Traces ohne manuelle Exporte in Annotations-Queues einspeisen.
Dreizehn Formate in drei Kategorien. **Frameworks**: LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF. **Web-Agenten**: WebArena, rohe Web-Traces. **Coding-Agenten**: Claude Code, Aider, SWE-Agent. Plus ein generischer JSONL-Ingest-Pfad mit dem Schema `structured_turns` für beliebige eigene Formate. Vollständige Liste siehe /integrations.
Ja. Ein Coding-Agent-Projekt kann trajectory_eval (Fehler pro Schritt), Span-Annotation (Halluzinationen im Agenten-Reasoning markieren), Pairwise-Vergleich (welcher Agent war besser) und Likert-Bewertungen (Gesamtqualität) auf derselben Trace übereinanderlegen. Potatos Multi-Schema-Architektur sorgt dafür, dass Annotator:innen alle Schemata in einer einzigen Oberfläche für dieselbe Trace sehen.
No. The live agent supports Ollama for fully local inference with no API key.
Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.
Use the generic ReAct converter or the webhook API to send traces in any JSON format.
Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.
Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.
Noch Fragen?
Unsere Community hilft Ihnen gerne. Treten Sie Discord für Echtzeit-Support bei oder durchsuchen Sie die Dokumentation für detaillierte Anleitungen.