Skip to content

Agent Evaluation

Trova risposte alle domande più comuni su Potato. Non trovi quello che cerchi? Unisciti al nostro Discord o consulta la documentazione.

Agent Evaluation

Sì. Potato include convertitori di tracce nativi per Claude Code, OpenCode, Cursor, Aider e SWE-Agent. Le chiamate agli strumenti sono renderizzate con un'interfaccia dedicata: vista diff unificata rosso/verde per Edit/Write, blocchi terminale monospazio scuro per Bash, codice con numerazione di riga per Read/Grep, e una sidebar ad albero che raggruppa tutti i file toccati per operazione. Gli output lunghi si comprimono automaticamente.

Sì. Potato include un display Web Agent con overlay SVG per marker di clic, bounding box, traiettorie del mouse e indicatori di scorrimento. Due modalità: Review Mode per la navigazione a pellicola tra screenshot pre-registrati, e Creation Mode per la navigazione web dal vivo basata su iframe con registrazione automatica delle interazioni. Sono forniti convertitori di tracce per i formati WebArena, Mind2Web e Anthropic Computer Use.

Sì. La modalità Live Agent connette un modello LLM visivo (Anthropic Claude tramite Playwright) a un browser headless. L'agente cattura screenshot, l'LLM pianifica le azioni e Potato trasmette la sessione all'annotatore tramite Server-Sent Events. Gli annotatori possono mettere in pausa, inviare istruzioni o assumere il controllo manuale durante la sessione. Configurabile tramite il tipo di visualizzazione `live_agent`.

Sì. La modalità coding agent supporta checkpoint/rollback in qualunque passo e branching/replay per esplorare traiettorie alternative. Utile per valutazione controfattuale, confronti A/B tra decisioni dell'agente e per raccogliere dati di training di alta qualità in cui gli annotatori raffinano iterativamente un'esecuzione dell'agente.

Sì. Lo schema trajectory_eval (basato su TRAIL e AgentRewardBench) mostra ogni passo come una card. Gli annotatori segnalano la correttezza, classificano i tipi di errore da una tassonomia configurabile con sottotipi (ragionamento, esecuzione, sicurezza, ecc.), assegnano la severità con punteggi ponderati e scrivono motivazioni per ogni passo. Un punteggio di qualità calcolato automaticamente aggrega le penalità di severità lungo l'intera traiettoria.

Sì. Potato include schemi process reward e code review per la valutazione step-by-step degli agenti di codifica. Entrambi i tipi di annotazione si esportano direttamente nei formati PRM e DPO per il training RLHF a valle. Consulta il progetto di esempio coding-agent-evaluation.

Sì. La LLM Chat Sidebar è un pannello di assistente AI comprimibile con conversazione multi-turno. Riceve come contesto la descrizione del task, l'insieme delle etichette e il testo dell'istanza corrente. Supporto multi-turno nativo per OpenAI, Anthropic e Ollama. Tutte le conversazioni vengono registrate come dati comportamentali per analizzare successivamente la collaborazione annotatore-LLM.

Yes. Potato converts LangChain/LangSmith traces automatically.

Sì. Installa `pip install potato-annotation[langchain]` e collega `PotatoCallbackHandler` alla tua chain. Traccia le esecuzioni padre-figlio di chain/LLM/tool e invia a Potato payload compatibili con LangSmith al completamento della chain radice. In combinazione con il ricevitore webhook, puoi ingerire tracce di agenti live nelle code di annotazione senza export manuali.

Tredici formati in tre categorie. **Framework**: LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF. **Agenti web**: WebArena, tracce web grezze. **Agenti di codifica**: Claude Code, Aider, SWE-Agent. Inoltre un percorso di ingestione JSONL generico con lo schema `structured_turns` per qualsiasi formato personalizzato. Per l'elenco completo vedi /integrations.

Sì. Un progetto di coding agent può sovrapporre trajectory_eval (errori per passo), annotazione span (evidenziare allucinazioni nel ragionamento dell'agente), confronto pairwise (quale agente ha fatto meglio) e valutazioni Likert (qualità complessiva) sulla stessa traccia. L'architettura multi-schema di Potato fa sì che gli annotatori vedano tutti gli schemi in un'unica interfaccia per la stessa traccia.

No. The live agent supports Ollama for fully local inference with no API key.

Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.

Use the generic ReAct converter or the webhook API to send traces in any JSON format.

Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.

Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.

Hai ancora domande?

La nostra comunità è qui per aiutarti. Unisciti a Discord per supporto in tempo reale o sfoglia la documentazione per guide dettagliate.