Question 1

Posso valutare le tracce di agenti di codifica come Claude Code, Cursor o SWE-Agent?

Accepted Answer

Sì. Potato include convertitori di tracce nativi per Claude Code, OpenCode, Cursor, Aider e SWE-Agent. Le chiamate agli strumenti sono renderizzate con un'interfaccia dedicata: vista diff unificata rosso/verde per Edit/Write, blocchi terminale monospazio scuro per Bash, codice con numerazione di riga per Read/Grep, e una sidebar ad albero che raggruppa tutti i file toccati per operazione. Gli output lunghi si comprimono automaticamente.

Question 2

Posso valutare agenti che navigano sul web?

Accepted Answer

Sì. Potato include un display Web Agent con overlay SVG per marker di clic, bounding box, traiettorie del mouse e indicatori di scorrimento. Due modalità: Review Mode per la navigazione a pellicola tra screenshot pre-registrati, e Creation Mode per la navigazione web dal vivo basata su iframe con registrazione automatica delle interazioni. Sono forniti convertitori di tracce per i formati WebArena, Mind2Web e Anthropic Computer Use.

Question 3

Posso valutare sistemi multi-agente con diversi agenti che cooperano?

Accepted Answer

Sì. Potato rende un run multi-agente come un grafo di interazione cliccabile di agenti e handoff, e aggiunge schemi per attribuire una failure all'agente e al passo responsabili, rivedere ogni handoff per il disallineamento tra agenti, assegnare un punteggio a ogni agente e al team, e taggare la contesa degli strumenti e i comportamenti emergenti tra gli agenti. Vedi la documentazione sulla valutazione di team multi-agente.

Question 4

Posso valutare agenti per uso del computer, voce o video?

Accepted Answer

Sì. Potato ha schemi appositi per agenti multimodali: traiettorie GUI/di uso del computer con screenshot per passo e grounding dei click, timeline vocali full-duplex con rilevamento dei barge-in, grounding temporale video con un IoU dal vivo rispetto alla previsione del modello, tagging degli errori su trascrizioni vocali allineate, ragionamento multimodale interlacciato e struttura a griglia delle tabelle documentali. Vedi la documentazione sulla valutazione di agenti multimodali.

Question 5

Gli annotatori possono osservare un agente AI navigare sul web in tempo reale?

Accepted Answer

Sì. La modalità Live Agent connette un modello LLM visivo (Anthropic Claude tramite Playwright) a un browser headless. L'agente cattura screenshot, l'LLM pianifica le azioni e Potato trasmette la sessione all'annotatore tramite Server-Sent Events. Gli annotatori possono mettere in pausa, inviare istruzioni o assumere il controllo manuale durante la sessione. Configurabile tramite il tipo di visualizzazione `live_agent`.

Question 6

Posso riavvolgere, biforcare o riprodurre una sessione di agente durante la valutazione?

Accepted Answer

Sì. La modalità coding agent supporta checkpoint/rollback in qualunque passo e branching/replay per esplorare traiettorie alternative. Utile per valutazione controfattuale, confronti A/B tra decisioni dell'agente e per raccogliere dati di training di alta qualità in cui gli annotatori raffinano iterativamente un'esecuzione dell'agente.

Question 7

Posso annotare errori a livello del singolo passo di una traiettoria di agente?

Accepted Answer

Sì. Lo schema trajectory_eval (basato su TRAIL e AgentRewardBench) mostra ogni passo come una card. Gli annotatori segnalano la correttezza, classificano i tipi di errore da una tassonomia configurabile con sottotipi (ragionamento, esecuzione, sicurezza, ecc.), assegnano la severità con punteggi ponderati e scrivono motivazioni per ogni passo. Un punteggio di qualità calcolato automaticamente aggrega le penalità di severità lungo l'intera traiettoria.

Question 8

Posso raccogliere dati di training per Process Reward Model (PRM) e code review?

Accepted Answer

Sì. Potato include schemi process reward e code review per la valutazione step-by-step degli agenti di codifica. Entrambi i tipi di annotazione si esportano direttamente nei formati PRM e DPO per il training RLHF a valle. Consulta il progetto di esempio coding-agent-evaluation.

Question 9

Gli annotatori possono chiedere aiuto a un LLM durante la valutazione di un agente?

Accepted Answer

Sì. La LLM Chat Sidebar è un pannello di assistente AI comprimibile con conversazione multi-turno. Riceve come contesto la descrizione del task, l'insieme delle etichette e il testo dell'istanza corrente. Supporto multi-turno nativo per OpenAI, Anthropic e Ollama. Tutte le conversazioni vengono registrate come dati comportamentali per analizzare successivamente la collaborazione annotatore-LLM.

Question 10

Can I use Potato with agents built on LangChain?

Accepted Answer

Yes. Potato converts LangChain/LangSmith traces automatically.

Question 11

Posso catturare automaticamente le tracce degli agenti dalla mia app LangChain?

Accepted Answer

Sì. Installa `pip install potato-annotation[langchain]` e collega `PotatoCallbackHandler` alla tua chain. Traccia le esecuzioni padre-figlio di chain/LLM/tool e invia a Potato payload compatibili con LangSmith al completamento della chain radice. In combinazione con il ricevitore webhook, puoi ingerire tracce di agenti live nelle code di annotazione senza export manuali.

Question 12

Quali formati di tracce di agenti supporta Potato out-of-the-box?

Accepted Answer

Tredici formati in tre categorie. **Framework**: LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF. **Agenti web**: WebArena, tracce web grezze. **Agenti di codifica**: Claude Code, Aider, SWE-Agent. Inoltre un percorso di ingestione JSONL generico con lo schema `structured_turns` per qualsiasi formato personalizzato. Per l'elenco completo vedi /integrations.

Question 13

Posso combinare più schemi di valutazione in un unico task di annotazione di agenti?

Accepted Answer

Sì. Un progetto di coding agent può sovrapporre trajectory_eval (errori per passo), annotazione span (evidenziare allucinazioni nel ragionamento dell'agente), confronto pairwise (quale agente ha fatto meglio) e valutazioni Likert (qualità complessiva) sulla stessa traccia. L'architettura multi-schema di Potato fa sì che gli annotatori vedano tutti gli schemi in un'unica interfaccia per la stessa traccia.

Question 14

Do I need a GPU or API key for live agent evaluation?

Accepted Answer

No. The live agent supports Ollama for fully local inference with no API key.

Question 15

Can I evaluate multi-agent systems?

Accepted Answer

Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.

Question 16

What if my agent framework is not listed?

Accepted Answer

Use the generic ReAct converter or the webhook API to send traces in any JSON format.

Question 17

Can annotators interact with agents during evaluation?

Accepted Answer

Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.

Question 18

How do I export agent annotations for training?

Accepted Answer

Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.

Agent Evaluation

Agent Evaluation

Hai ancora domande?