Avaliação de agentes ao vivo
Como avaliar um agente de IA em tempo real: pausar, enviar instruções, assumir o controle, reverter e ramificar, usando a visualização de agente ao vivo do Potato.
A maioria das avaliações de agentes revisa um trace gravado. A avaliação ao vivo acompanha o agente em execução em tempo real e permite que uma pessoa intervenha: pausá-lo, enviar instruções, assumir o controle ou reverter para tentar outro caminho. Ela captura o que uma gravação não consegue: onde uma pessoa teria intervindo e como seria uma orientação melhor.
Para a referência do recurso, consulte Avaliação de agentes ao vivo e Agente de programação ao vivo.
O que a avaliação ao vivo acrescenta
- Pausar e retomar: pare o agente no meio da tarefa para inspecionar seu estado.
- Enviar instruções: oriente-o com indicações e observe como ele se adapta.
- Assumir o controle: conduza manualmente e depois devolva o controle. Os pontos de transferência são rótulos valiosos.
- Reverter e ramificar: volte a um passo anterior e tente uma alternativa, comparando caminhos a partir do mesmo estado.
Isso produz dados intervencionais, contrafactuais sobre o que ajuda, e não apenas rótulos observacionais.
Como configurar
O modo ao vivo conecta o Potato a um agente em execução por meio de um endpoint (um proxy compatível com OpenAI, um endpoint HTTP personalizado ou um backend de agente de programação). O anotador interage pela visualização de agente ao vivo.
live_agent:
endpoint_type: anthropic_vision # or coding_agent, openai_proxy, ...
ai_config:
model: claude-sonnet-4-20250514
api_key: ${ANTHROPIC_API_KEY}
max_steps: 30
allow_takeover: true
allow_instructions: trueQuando usá-la
- Criar diretrizes: assistir ao vivo revela os modos de falha que vale a pena codificar em uma taxonomia para a rotulagem em lote posterior.
- Tarefas interativas: assistentes de chat e agentes que usam ferramentas, em que o que você julga é a interação, e não só a transcrição.
- Testes de estresse: investigar como um agente se recupera após um empurrão ou um desvio forçado.
A avaliação ao vivo exige mais dedicação e tem menor vazão do que revisar traces gravados, então é melhor para uma amostra focada ou para projetar a tarefa em lote. Para volume, passe à anotação de trajetórias sobre execuções gravadas.