Potato 2.6 trajo la primera ola de evaluación de agentes: calibración de LLM como juez, edición de trayectorias para datos de entrenamiento y la vista eval_trace de tres paneles. Las versiones puntuales 2.6.x posteriores completan el resto. A partir de la 2.6.2, Potato es una plataforma de evaluación de agentes completa: puedes capturar trazas de tus propios agentes, anotar agentes individuales, equipos multiagente y agentes multimodales, evaluarlos con LLM en los que puedes confiar, clasificar modelos en una arena y aplicar gating a las publicaciones en CI. Todo se configura en YAML y permanece en tu propio servidor.

Un grafo de interacción de agentes interactivo, lo más destacado de la evaluación multiagente de Potato Evaluación multiagente de Potato

La mayoría de estas son capacidades por las que la gente paga actualmente a una plataforma alojada. Potato las ofrece gratis y autoalojadas. Esto es lo que llegó a lo largo de la línea 2.6.x.

Un mapa de la suite de evaluación de agentes de Potato: ingerir, anotar, evaluar, operar La suite de evaluación de agentes 2.6.x, de principio a fin

Trae las trazas: un SDK de captura y estándares abiertos

La evaluación empieza con ejecuciones reales. El nuevo SDK potato_trace instrumenta cualquier agente: decora una función con @traceable (síncrona o asíncrona) y las llamadas anidadas se capturan y se envían al endpoint de ingesta de Potato, con una exportación opcional a OpenTelemetry. Potato también ingiere spans de OpenTelemetry / OpenInference y los formatos de ejecución de LangGraph, CrewAI y AutoGen, de modo que las trazas del framework que ya usas llegan a la cola de anotación sin código de pegamento. Las nuevas trazas pueden llegar a través de un webhook, un poller o un directorio vigilado, y quedan asignables a los anotadores a medida que aparecen.

Referencia: SDK de trazado, Reglas de automatización.

Mira a todo el equipo: evaluación multiagente

Esta es la parte sin equivalente de código abierto. Una ejecución multiagente falla de forma distinta a un agente individual: entre agentes, en un traspaso, en cómo se organizó el equipo, así que Potato anota la estructura del equipo en lugar de una transcripción plana:

Un grafo de interacción interactivo de agentes y traspasos, donde marcas el camino crítico y señalas las aristas problemáticas.
Atribución de fallos: elige el agente responsable, el paso decisivo y la razón, la tripleta (agente, paso, razón) procedente del trabajo de atribución Who&When.
Revisión de traspasos: cada transferencia de control se convierte en una tarjeta para señalar desalineaciones entre agentes y valorar la calidad.
Cuadros de mando por agente y por equipo: fidelidad al rol, contribución y coordinación por agente, además de dimensiones compartidas y hitos del equipo.
Una línea de tiempo de contención de herramientas que saca a la luz interbloqueos y carreras donde varios agentes tocan el mismo recurso a la vez.
Etiquetado de comportamiento emergente para colusión, pensamiento de grupo y errores en cascada que abarcan varios agentes y turnos.

Atribuyendo un fallo multiagente a un agente responsable, un paso decisivo y una razón Atribución de fallos: qué agente, qué paso y por qué

El conjunto completo, con su YAML para cada uno, está en Evaluación de equipos multiagente, y el análisis a fondo Depurando fallos multiagente recorre cada superficie de principio a fin. La guía Cómo evaluar sistemas multiagente cubre cuándo usar cada cual.

Más allá del texto: evaluación de agentes multimodales

Los agentes ahora manejan GUIs, ven vídeo y mantienen conversaciones habladas, y cada uno necesita una superficie de revisión que un widget de texto no puede ofrecer:

Trayectorias de GUI / computer-use: captura de pantalla y acción por paso, un veredicto de la acción y un marcador de anclaje del clic que muestra si el clic cayó sobre el elemento correcto.
Líneas de tiempo de voz full-duplex: una línea de tiempo de doble pista usuario/agente con detección de interrupciones (barge-in) y puntuación del turno de palabra.
Anclaje temporal de vídeo: marca intervalos de eventos de referencia con un IoU en vivo frente al intervalo predicho por el modelo.
Etiquetado de errores en transcripciones de habla, razonamiento multimodal intercalado con marcas de alucinación visual y estructura de cuadrícula de tablas de documentos.

Un paso de computer-use con un veredicto de acción y un marcador de anclaje del clic sobre la captura de pantalla Revisión de computer-use: corrección de la acción más anclaje del clic

Dos análisis a fondo los recorren: Evaluando agentes de computer-use para agentes de GUI y de SO, y Evaluando agentes de voz y vídeo para agentes hablados, de vídeo y de documentos. La referencia es Evaluación de agentes multimodales, y la guía es Evaluando agentes de computer-use y multimodales.

Jueces en los que puedes confiar, y una arena

Usar un LLM para calificar salidas es algo rutinario; el trabajo de la 2.6.x consiste en saber hasta qué punto confiar en él. La calibración del juez ejecuta una pasada humana a ciegas contra las etiquetas del modelo e informa de la exactitud, la kappa y el Error de Calibración Esperado (ECE). La alineación del juez ajusta un único juez frente a tus etiquetas de referencia. Y los evaluadores programáticos puntúan trayectorias y texto automáticamente (coincidencia de trayectorias, corrección del uso de herramientas, LLM como juez sin referencia y heurísticas) sin necesidad de un servidor en ejecución.

Para la comparación cara a cara, la Arena de modelos envía un mismo prompt a varios modelos, recopila preferencias y construye una tabla de clasificación por tasa de victorias entre OpenAI, Anthropic, Gemini, Ollama y vLLM.

Trata la evaluación como software

Las piezas operativas hacen que la evaluación sea repetible:

Conjuntos de datos y experimentos: conjuntos de evaluación versionados, splits y comparación de experimentos lado a lado con deltas de regresión.
Evaluación en CI: un plugin de pytest que hace fallar la build cuando un cambio de prompt o de modelo provoca una regresión de la calidad del agente por debajo de un umbral.
Reglas de automatización: encamina las trazas de producción entrantes hacia conjuntos de datos, evaluadores o la cola de anotación según reglas.
Curación semántica: un índice de embeddings para "encuentra trazas como este fallo" y cortes dinámicos guardados.

Cómo obtenerlo

bash

pip install --upgrade potato-annotation

Cada nueva superficie incluye un ejemplo ejecutable en examples/agent-traces/, incluidos interaction-graph/, failure-attribution/, gui-trajectory/ y temporal-grounding/. Apunta Potato a uno para ver el esquema en funcionamiento:

bash

python potato/flask_server.py start examples/agent-traces/interaction-graph/config.yaml -p 8000

Si estás sopesando herramientas, la comparación en Potato frente a LangSmith y Langfuse y la guía Herramientas de anotación de código abierto comparadas explican dónde encaja cada una. Las preguntas y los formatos de traza que deberíamos admitir son bienvenidos en el repositorio de GitHub.