Skip to content

Agent Evaluation

Encuentre respuestas a preguntas comunes sobre Potato. ¿No encuentra lo que busca? Únase a nuestro Discord o consulte la documentación.

Agent Evaluation

Sí. Potato incluye conversores de trazas nativos para Claude Code, OpenCode, Cursor, Aider y SWE-Agent. Las llamadas a herramientas se renderizan con una interfaz diseñada para el propósito: vista de diff unificada rojo/verde para Edit/Write, bloques de terminal monoespaciado oscuro para Bash, código con números de línea para Read/Grep, y una barra lateral de árbol de archivos que agrupa todos los archivos tocados por operación. Las salidas largas se contraen automáticamente.

Sí. Potato incluye una vista Web Agent con superposiciones SVG para marcadores de clic, cajas delimitadoras, trayectorias del ratón e indicadores de desplazamiento. Dos modos: Review Mode para navegar tira a tira por capturas pregrabadas, y Creation Mode para navegación web en vivo basada en iframe con grabación automática de interacciones. Se incluyen conversores de trazas para los formatos WebArena, Mind2Web y Anthropic Computer Use.

Sí. El modo Live Agent conecta un modelo LLM con visión (Anthropic Claude a través de Playwright) a un navegador sin cabeza. El agente toma capturas, el LLM planifica acciones, y Potato transmite la sesión al anotador mediante Server-Sent Events. Los anotadores pueden pausar, enviar instrucciones o tomar el control manual a mitad de sesión. Se configura mediante el tipo de visualización `live_agent`.

Sí. El modo de agente de codificación admite checkpoint/rollback en cualquier paso y ramificación/repetición para explorar trayectorias alternativas. Útil para evaluación contrafactual, comparaciones A/B entre decisiones del agente, y captura de datos de entrenamiento de alta calidad donde los anotadores refinan iterativamente una ejecución del agente.

Sí. El esquema trajectory_eval (basado en TRAIL y AgentRewardBench) muestra cada paso como una tarjeta. Los anotadores marcan la corrección, clasifican los tipos de error desde una taxonomía configurable con subtipos (razonamiento, ejecución, seguridad, etc.), asignan severidad con puntuaciones ponderadas y escriben justificaciones por paso. Una puntuación de calidad calculada automáticamente agrega las penalizaciones de severidad en toda la trayectoria.

Sí. Potato incluye esquemas de proceso de recompensa y revisión de código para evaluación a nivel de paso de agentes de codificación. Ambos tipos de anotación se exportan directamente a los formatos PRM y DPO para entrenamiento RLHF posterior. Consulta el proyecto de ejemplo coding-agent-evaluation.

Sí. El LLM Chat Sidebar es un panel de asistente de IA plegable con conversación multi-turno. Recibe la descripción de la tarea, el conjunto de etiquetas y el texto de la instancia actual como contexto. Soporte nativo de múltiples turnos para OpenAI, Anthropic y Ollama. Todas las conversaciones se registran como datos de comportamiento para análisis posteriores de la colaboración anotador-LLM.

Yes. Potato converts LangChain/LangSmith traces automatically.

Sí. Instala `pip install potato-annotation[langchain]` y adjunta `PotatoCallbackHandler` a tu cadena. Rastrea las ejecuciones padre-hijo de cadenas/LLM/herramientas y envía cargas compatibles con LangSmith a Potato al completarse la cadena raíz. Combinado con el receptor de webhook, puedes ingerir trazas de agentes en vivo en las colas de anotación sin exportación manual.

Trece formatos en tres categorías. **Frameworks**: LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF. **Agentes web**: WebArena, trazas web sin procesar. **Agentes de codificación**: Claude Code, Aider, SWE-Agent. Además, una vía de ingestión JSONL genérica con el esquema `structured_turns` para cualquier formato personalizado. Consulta /integrations para la lista completa.

Sí. Un proyecto de agente de codificación puede superponer trajectory_eval (errores por paso), anotación span (resaltar alucinaciones en el razonamiento del agente), comparación pairwise (qué agente lo hizo mejor) y valoraciones Likert (calidad global) sobre la misma traza. La arquitectura multi-esquema de Potato permite que los anotadores vean todos los esquemas en una única interfaz para la misma traza.

No. The live agent supports Ollama for fully local inference with no API key.

Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.

Use the generic ReAct converter or the webhook API to send traces in any JSON format.

Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.

Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.

¿Aún tiene preguntas?

Nuestra comunidad está aquí para ayudar. Únase a Discord para soporte en tiempo real o explore la documentación para guías detalladas.