Skip to content
Announcements6 min read

Potato 2.2: Eventos, Vinculação de Entidades, Exportação e 55 Instrumentos de Pesquisa

O Potato 2.2.0 adiciona 9 novos esquemas de anotação, um sistema de exportação plugável, estimativa de competência MACE, 55 instrumentos de pesquisa validados e fontes de dados remotas.

Potato Team

Nota: Este post descreve o Potato 2.2 como ele era no lançamento. Algumas chaves de configuração e recursos foram atualizados em versões posteriores. Consulte a documentação atual para a sintaxe de configuração mais recente.

O Potato 2.2.0 está disponível e amplia tanto o que você pode anotar quanto a forma de manter a qualidade. Ele adiciona 9 novos esquemas de anotação, um sistema de exportação plugável, estimativa de competência MACE, 55 instrumentos de pesquisa validados e fontes de dados remotas.

Novos esquemas de anotação

Anotação de eventos

A maior adição de esquema no 2.2 é a anotação de eventos n-ária. Um evento tem um span de gatilho (a palavra que sinaliza o evento) e spans de argumento com papéis semânticos tipados. Uma visualização de arcos em formato de cubo e raios conecta cada gatilho aos seus argumentos.

yaml
annotation_schemes:
  - annotation_type: event_annotation
    name: events
    span_schema: entities
    event_types:
      - type: "ATTACK"
        trigger_labels: ["EVENT_TRIGGER"]
        arguments:
          - role: "attacker"
            entity_types: ["PERSON", "ORGANIZATION"]
            required: true
          - role: "target"
            entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
            required: true

Isso cobre extração de informação, rotulagem de papéis semânticos e construção de grafos de conhecimento, que antes exigiam ferramentas personalizadas.

Leia a documentação de anotação de eventos →

Vinculação de entidades

As anotações de span agora podem apontar para bases de conhecimento externas. Um anotador destaca o texto, atribui um rótulo e então usa um modal de busca para encontrar e vincular a entidade correspondente do Wikidata, UMLS ou de uma base de conhecimento personalizada.

yaml
annotation_schemes:
  - annotation_type: span
    name: ner
    labels: [PERSON, ORGANIZATION, LOCATION]
    entity_linking:
      enabled: true
      knowledge_bases:
        - name: wikidata
          type: wikidata
          language: en

Ele também lida com o modo de seleção múltipla para entidades ambíguas e permite conectar várias bases de conhecimento em uma única tarefa.

Leia a documentação de vinculação de entidades →

Triagem, comparação em pares, correferência e mais

Mais seis tipos de anotação completam as adições da v2.2:

  • A triagem oferece uma interface de aceitar/rejeitar/pular para filtrar dados rapidamente, com avanço automático e atalhos de teclado
  • A comparação em pares oferece uma escolha binária A/B ou um controle deslizante em escala para aprendizado de preferências e dados de RLHF
  • As árvores de conversa suportam anotação hierárquica em árvore com avaliações por nó e seleção de caminhos
  • As cadeias de correferência permitem agrupar menções correferentes, com indicadores visuais mostrando as cadeias
  • As máscaras de segmentação adicionam ferramentas de preenchimento, borracha e pincel para anotação de imagens em nível de pixel
  • Os spans descontínuos (allow_discontinuous: true) lidam com seleções de texto não contíguas

Anotação mais inteligente

Estimativa de competência MACE

O MACE executa um algoritmo EM de Bayes Variacional para estimar os rótulos verdadeiros e a competência de cada anotador (uma pontuação de 0.0 a 1.0) ao mesmo tempo. Ele sinaliza anotadores confiáveis, identifica spammers e produz rótulos previstos melhores.

yaml
mace:
  enabled: true
  trigger_every_n: 10
  min_annotations_per_item: 3

Ele roda em segundo plano por conta própria e se conecta ao painel de administração e ao sistema de adjudicação.

Leia a documentação do MACE →

Destaque de opções

Esse novo recurso de IA lê o conteúdo e destaca as opções com maior probabilidade de estarem corretas em tarefas discretas. As k melhores opções aparecem em opacidade total com uma estrela ao lado; as demais ficam esmaecidas.

yaml
ai_support:
  option_highlighting:
    enabled: true
    top_k: 3
    dim_opacity: 0.4

Leia a documentação de destaque de opções →

Ordenação por diversidade

Embeddings de sentence-transformer agrupam itens semelhantes em clusters, e então a amostragem round-robin extrai itens de diferentes clusters por vez. Os anotadores veem mais variedade, o que os mantém atentos e dá a você melhor cobertura do espaço de tópicos.

yaml
assignment_strategy: diversity_clustering
diversity_ordering:
  enabled: true
  prefill_count: 100

Leia a documentação de ordenação por diversidade →

Sistema de exportação

A nova CLI de exportação (python -m potato.export) converte anotações para 6 formatos padrão em um único comando:

bash
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/

Formatos suportados: COCO, YOLO, Pascal VOC, CoNLL-2003, CoNLL-U e máscaras de segmentação. Se você precisar de um formato que não está na lista, crie uma subclasse de BaseExporter e escreva o seu próprio.

Leia a documentação de formatos de exportação →

Fontes de dados remotas

Carregue dados de anotação a partir de URLs, S3, Google Drive, Dropbox, datasets do Hugging Face, Google Sheets e bancos de dados SQL:

yaml
data_sources:
  - type: huggingface
    dataset: "squad"
    split: "train"
 
  - type: s3
    bucket: "my-annotation-data"
    key: "datasets/items.jsonl"

Ele também lida com carregamento parcial e incremental para datasets grandes, armazena os dados em cache localmente e mantém as credenciais em variáveis de ambiente em vez de na sua configuração.

Leia a documentação de fontes de dados remotas →

Instrumentos de pesquisa

Uma biblioteca de 55 questionários validados que você pode inserir nas fases de pré-estudo e pós-estudo:

yaml
phases:
  prestudy:
    type: prestudy
    instrument: "tipi"      # 10-item personality questionnaire
 
  poststudy:
    type: poststudy
    instrument: "phq-9"     # 9-item depression screening

Eles abrangem 8 categorias: personalidade (BFI-2, TIPI), saúde mental (PHQ-9, GAD-7), afeto (PANAS), autoconceito (RSE), atitudes sociais (SDO-7, MFQ), estilo de resposta, versões abreviadas e baterias demográficas de grandes pesquisas (ANES, GSS, ESS).

Leia a documentação de instrumentos de pesquisa →

Correções menores

  • Rastreamento de objetos em vídeo com interpolação de keyframes
  • Anotação de caixas delimitadoras em páginas de PDF
  • Suporte a um arquivo externo de configuração de IA
  • Melhorias na grade de layout de formulários

Atualizando para a v2.2

bash
pip install --upgrade potato-annotation

Suas configurações da v2.0 e v2.1 continuam funcionando sem alterações. Tudo que é novo é opcional, por meio de blocos de configuração extras.

Primeiros passos

Para o changelog completo, incluindo quaisquer chaves de configuração que mudaram, consulte as notas de lançamento da v2.2.0 no repositório.


Tem dúvidas ou comentários? Entre no nosso Discord ou abra uma issue no GitHub.