Question 1

¿Puedo evaluar trazas de agentes de codificación como Claude Code, Cursor o SWE-Agent?

Accepted Answer

Sí. Potato incluye conversores de trazas nativos para Claude Code, OpenCode, Cursor, Aider y SWE-Agent. Las llamadas a herramientas se renderizan con una interfaz diseñada para el propósito: vista de diff unificada rojo/verde para Edit/Write, bloques de terminal monoespaciado oscuro para Bash, código con números de línea para Read/Grep, y una barra lateral de árbol de archivos que agrupa todos los archivos tocados por operación. Las salidas largas se contraen automáticamente.

Question 2

¿Puedo evaluar agentes que navegan por la web?

Accepted Answer

Sí. Potato incluye una vista Web Agent con superposiciones SVG para marcadores de clic, cajas delimitadoras, trayectorias del ratón e indicadores de desplazamiento. Dos modos: Review Mode para navegar tira a tira por capturas pregrabadas, y Creation Mode para navegación web en vivo basada en iframe con grabación automática de interacciones. Se incluyen conversores de trazas para los formatos WebArena, Mind2Web y Anthropic Computer Use.

Question 3

¿Puedo evaluar sistemas multiagente con varios agentes que cooperan?

Accepted Answer

Sí. Potato renderiza una ejecución multiagente como un grafo de interacción clicable de agentes y traspasos, y añade esquemas para atribuir un fallo al agente y al paso responsables, revisar cada traspaso en busca de desalineación entre agentes, puntuar a cada agente y al equipo, y etiquetar la contención de herramientas y el comportamiento emergente entre agentes. Consulta la documentación de evaluación de equipos multiagente.

Question 4

¿Puedo evaluar agentes de uso del ordenador, de voz o de vídeo?

Accepted Answer

Sí. Potato tiene esquemas creados a medida para agentes multimodales: trayectorias de GUI/uso del ordenador con capturas por paso y anclaje de clics, líneas de tiempo de voz full-duplex con detección de interrupciones, anclaje temporal de vídeo con un IoU en vivo frente a la predicción del modelo, etiquetado de errores de transcripción de voz alineada, razonamiento multimodal intercalado y estructura de cuadrícula de tablas de documentos. Consulta la documentación de evaluación de agentes multimodales.

Question 5

¿Pueden los anotadores ver a un agente de IA navegar por la web en tiempo real?

Accepted Answer

Sí. El modo Live Agent conecta un modelo LLM con visión (Anthropic Claude a través de Playwright) a un navegador sin cabeza. El agente toma capturas, el LLM planifica acciones, y Potato transmite la sesión al anotador mediante Server-Sent Events. Los anotadores pueden pausar, enviar instrucciones o tomar el control manual a mitad de sesión. Se configura mediante el tipo de visualización `live_agent`.

Question 6

¿Puedo rebobinar, ramificar o reproducir una sesión de agente durante la evaluación?

Accepted Answer

Sí. El modo de agente de codificación admite checkpoint/rollback en cualquier paso y ramificación/repetición para explorar trayectorias alternativas. Útil para evaluación contrafactual, comparaciones A/B entre decisiones del agente, y captura de datos de entrenamiento de alta calidad donde los anotadores refinan iterativamente una ejecución del agente.

Question 7

¿Puedo anotar errores a nivel de paso individual en la trayectoria de un agente?

Accepted Answer

Sí. El esquema trajectory_eval (basado en TRAIL y AgentRewardBench) muestra cada paso como una tarjeta. Los anotadores marcan la corrección, clasifican los tipos de error desde una taxonomía configurable con subtipos (razonamiento, ejecución, seguridad, etc.), asignan severidad con puntuaciones ponderadas y escriben justificaciones por paso. Una puntuación de calidad calculada automáticamente agrega las penalizaciones de severidad en toda la trayectoria.

Question 8

¿Puedo recopilar datos de entrenamiento de modelo de recompensa de proceso (PRM) y revisión de código?

Accepted Answer

Sí. Potato incluye esquemas de proceso de recompensa y revisión de código para evaluación a nivel de paso de agentes de codificación. Ambos tipos de anotación se exportan directamente a los formatos PRM y DPO para entrenamiento RLHF posterior. Consulta el proyecto de ejemplo coding-agent-evaluation.

Question 9

¿Pueden los anotadores pedir ayuda a un LLM mientras evalúan un agente?

Accepted Answer

Sí. El LLM Chat Sidebar es un panel de asistente de IA plegable con conversación multi-turno. Recibe la descripción de la tarea, el conjunto de etiquetas y el texto de la instancia actual como contexto. Soporte nativo de múltiples turnos para OpenAI, Anthropic y Ollama. Todas las conversaciones se registran como datos de comportamiento para análisis posteriores de la colaboración anotador-LLM.

Question 10

Can I use Potato with agents built on LangChain?

Accepted Answer

Yes. Potato converts LangChain/LangSmith traces automatically.

Question 11

¿Puedo capturar trazas de agentes automáticamente desde mi aplicación LangChain?

Accepted Answer

Sí. Instala `pip install potato-annotation[langchain]` y adjunta `PotatoCallbackHandler` a tu cadena. Rastrea las ejecuciones padre-hijo de cadenas/LLM/herramientas y envía cargas compatibles con LangSmith a Potato al completarse la cadena raíz. Combinado con el receptor de webhook, puedes ingerir trazas de agentes en vivo en las colas de anotación sin exportación manual.

Question 12

¿Qué formatos de trazas de agentes admite Potato de forma nativa?

Accepted Answer

Trece formatos en tres categorías. **Frameworks**: LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF. **Agentes web**: WebArena, trazas web sin procesar. **Agentes de codificación**: Claude Code, Aider, SWE-Agent. Además, una vía de ingestión JSONL genérica con el esquema `structured_turns` para cualquier formato personalizado. Consulta /integrations para la lista completa.

Question 13

¿Puedo combinar varios esquemas de evaluación en una sola tarea de anotación de agentes?

Accepted Answer

Sí. Un proyecto de agente de codificación puede superponer trajectory_eval (errores por paso), anotación span (resaltar alucinaciones en el razonamiento del agente), comparación pairwise (qué agente lo hizo mejor) y valoraciones Likert (calidad global) sobre la misma traza. La arquitectura multi-esquema de Potato permite que los anotadores vean todos los esquemas en una única interfaz para la misma traza.

Question 14

Do I need a GPU or API key for live agent evaluation?

Accepted Answer

No. The live agent supports Ollama for fully local inference with no API key.

Question 15

Can I evaluate multi-agent systems?

Accepted Answer

Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.

Question 16

What if my agent framework is not listed?

Accepted Answer

Use the generic ReAct converter or the webhook API to send traces in any JSON format.

Question 17

Can annotators interact with agents during evaluation?

Accepted Answer

Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.

Question 18

How do I export agent annotations for training?

Accepted Answer

Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.

Agent Evaluation

Agent Evaluation

¿Aún tiene preguntas?