Skip to content
Release6 min read

Potato 2.4.0: Anotação de Agentes Web, Avaliação ao Vivo e Integração com o HuggingFace

O Potato 2.4.0 traz revisão de traces de agentes web, avaliação de agentes ao vivo em tempo real, uma barra lateral de chat com LLM, exportação para o HuggingFace Hub, webhooks, SSO/OAuth e cinco estratégias de aprendizado ativo.

Potato Team

Note: The feature counts in this post reflect the state at the v2.4.0 release. Potato now supports 30+ annotation types. See the annotation types documentation for the full list.

O Potato 2.4.0 chegou. É nossa maior atualização desde que a anotação agêntica surgiu na 2.3, e adiciona os recursos de avaliação de agentes que as pessoas vinham pedindo, além de um conjunto de trabalhos de integração e voltados para empresas.

Anotação de Agentes Web

Avaliar agentes que navegam na web é difícil. Você precisa ver o que o agente viu, onde ele clicou, como ele rolou a página e se cada passo fez sentido. O Potato 2.4 adiciona um Visualizador de Trace de Agente Web para isso.

O Modo de Revisão oferece aos anotadores uma visão em filmstrip por capturas de tela pré-gravadas. Sobreposições SVG marcam alvos de clique, caixas delimitadoras, trajetórias do mouse e posições de rolagem, de modo que os avaliadores veem o que o agente viu, com os controles de anotação embutidos.

O Modo de Criação inverte a interface. Os anotadores navegam por um site ao vivo dentro de um iframe, e o Potato registra cada interação como um trace pronto para anotação. Você pode importar traces existentes nos formatos WebArena, Mind2Web e Anthropic Computer Use, ou gravar novos conforme avança.

yaml
display:
  type: web_agent_trace
  mode: review          # or "creation"
  show_overlays: true
  keyboard_shortcuts: true

Avaliação de Agentes ao Vivo

Às vezes você precisa avaliar agentes enquanto eles executam, não depois do fato. O novo sistema de Avaliação de Agentes ao Vivo permite que os anotadores observem agentes de IA executando tarefas em tempo real e anotem o comportamento deles durante a execução.

O Potato executa agentes em paralelo por meio do Agent Runner Manager, captura traces conforme eles chegam por meio de um receptor de webhook e mostra aos anotadores uma interface de avaliação em tempo real. Ele rastreia automaticamente a concordância entre anotadores em nível de passo.

Barra Lateral de Chat com LLM

Decisões difíceis de anotação se beneficiam de uma segunda opinião. A nova Barra Lateral de Chat com LLM oferece aos anotadores um painel de assistente de IA que podem consultar no meio da tarefa sem sair da interface.

A barra lateral lida com conversas de múltiplos turnos e injeta automaticamente todo o contexto da tarefa. Ela funciona com endpoints da OpenAI, Anthropic e Ollama, e registra cada conversa como dado comportamental, o que é útil se você quiser estudar como os anotadores se apoiam na assistência de IA.

yaml
llm_sidebar:
  enabled: true
  provider: anthropic
  model: claude-3-5-sonnet-20241022
  system_prompt: "You are a helpful annotation assistant for this {task_name} task."
  collapsible: true

Integração com o Ecossistema HuggingFace

O Potato agora se conecta ao HuggingFace de algumas maneiras. Você pode enviar anotações diretamente para datasets do Hub com DatasetCards geradas automaticamente, carregá-las de volta como objetos datasets.Dataset sem uma viagem de ida e volta, implantar uma instância do Potato no HuggingFace Spaces e ingerir traces automaticamente ao executar agentes LangChain por meio do callback do LangChain.

bash
pip install potato-annotation[huggingface]
python
from potato import PotatoDataset
 
ds = PotatoDataset.from_output("annotations/")
ds.push_to_hub("my-org/my-annotation-dataset")

Sistema de Webhooks

O Potato 2.4 traz um sistema completo de webhooks para integrações orientadas a eventos. Cinco tipos de eventos, assinados com HMAC-SHA256 conforme a especificação Standard Webhooks:

EventoDispara quando
annotation.createdUm anotador envia um rótulo
item.fully_annotatedUm item atinge a contagem de sobreposição exigida
task.completedTodos os itens de uma tarefa são anotados
user.phase_completedUm usuário conclui uma fase (Solo Mode)
quality.attention_check_failedUm anotador falha em uma verificação de atenção

Os webhooks são entregues de forma não bloqueante com retentativa configurável e gerenciados por meio da API de administração.

yaml
webhooks:
  - url: https://your-system.example.com/potato-events
    secret: your-signing-secret
    events: [annotation.created, item.fully_annotated]

Aprendizado Ativo Avançado: 5 Estratégias + Cold-Start com LLM

O sistema de aprendizado ativo agora traz cinco estratégias de consulta:

  1. Amostragem por incerteza: Seleciona as instâncias sobre as quais o modelo tem menos confiança
  2. Seleção baseada em diversidade: Maximiza a cobertura do espaço de entrada
  3. BADGE: Batch Active Learning by Diverse Gradient Embeddings
  4. BALD: Bayesian Active Learning by Disagreement
  5. Conjunto híbrido: Combina estratégias para uma seleção robusta

Há também o cold-start com LLM, que escolhe instâncias antes de qualquer rótulo existir. Você aponta um modelo de linguagem para o seu conjunto e deixa que ele destaque os itens desafiadores ou representativos para semear a anotação. O CoverICL também é novidade, para escolher exemplos diversos de aprendizado em contexto.

Gerenciamento de Senhas e SSO/OAuth

Dois recursos de autenticação que as pessoas vinham solicitando:

O gerenciamento de senhas usa hashing PBKDF2-SHA256 com salts por usuário, oferece suporte a redefinições de senha via CLI de administração e API, e inclui um fluxo de redefinição self-service baseado em token, apoiado por SQLite ou PostgreSQL.

O SSO/OAuth lida com login único por meio do Google, GitHub ou qualquer provedor OIDC genérico via Authlib.

bash
pip install potato-annotation[auth]

Contagens Atualizadas

Recurso2.32.4
Tipos de anotação2021
Tipos de exibição1517+
Endpoints de IA711
Projetos de exemplo1540+
Estratégias de aprendizado ativo15
Tipos de evento de webhook05
Projetos de exemplo de agentes014

Instalação

bash
pip install potato-annotation           # core
pip install potato-annotation[ai]       # OpenAI, Ollama
pip install potato-annotation[huggingface]  # HF Hub + Spaces
pip install potato-annotation[langchain]    # LangChain callback
pip install potato-annotation[auth]         # SSO/OAuth
pip install potato-annotation[all]          # everything

Experimente

A maneira mais rápida de ver a 2.4 em ação é a demonstração ao vivo no HuggingFace Spaces, sem necessidade de instalação. Ela executa uma tarefa de avaliação de trace de agente com botões de rádio, escalas Likert, anotação de span e notas de texto livre:

Experimente a demonstração ao vivo →

Ou execute um exemplo localmente:

bash
git clone https://github.com/davidjurgens/potato.git
cd potato
pip install -e .
python potato/flask_server.py start examples/agent-traces/complex-annotation/config.yaml -p 8000

Para o changelog completo, consulte as notas de versão da v2.4.0, e o restante da documentação no repositório do GitHub.