Potato 2.2: Eventos, Vinculação de Entidades, Exportação e 55 Instrumentos de Pesquisa
O Potato 2.2.0 adiciona 9 novos esquemas de anotação, um sistema de exportação plugável, estimativa de competência MACE, 55 instrumentos de pesquisa validados e fontes de dados remotas.
Nota: Este post descreve o Potato 2.2 como ele era no lançamento. Algumas chaves de configuração e recursos foram atualizados em versões posteriores. Consulte a documentação atual para a sintaxe de configuração mais recente.
O Potato 2.2.0 está disponível e amplia tanto o que você pode anotar quanto a forma de manter a qualidade. Ele adiciona 9 novos esquemas de anotação, um sistema de exportação plugável, estimativa de competência MACE, 55 instrumentos de pesquisa validados e fontes de dados remotas.
Novos esquemas de anotação
Anotação de eventos
A maior adição de esquema no 2.2 é a anotação de eventos n-ária. Um evento tem um span de gatilho (a palavra que sinaliza o evento) e spans de argumento com papéis semânticos tipados. Uma visualização de arcos em formato de cubo e raios conecta cada gatilho aos seus argumentos.
annotation_schemes:
- annotation_type: event_annotation
name: events
span_schema: entities
event_types:
- type: "ATTACK"
trigger_labels: ["EVENT_TRIGGER"]
arguments:
- role: "attacker"
entity_types: ["PERSON", "ORGANIZATION"]
required: true
- role: "target"
entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
required: trueIsso cobre extração de informação, rotulagem de papéis semânticos e construção de grafos de conhecimento, que antes exigiam ferramentas personalizadas.
Leia a documentação de anotação de eventos →
Vinculação de entidades
As anotações de span agora podem apontar para bases de conhecimento externas. Um anotador destaca o texto, atribui um rótulo e então usa um modal de busca para encontrar e vincular a entidade correspondente do Wikidata, UMLS ou de uma base de conhecimento personalizada.
annotation_schemes:
- annotation_type: span
name: ner
labels: [PERSON, ORGANIZATION, LOCATION]
entity_linking:
enabled: true
knowledge_bases:
- name: wikidata
type: wikidata
language: enEle também lida com o modo de seleção múltipla para entidades ambíguas e permite conectar várias bases de conhecimento em uma única tarefa.
Leia a documentação de vinculação de entidades →
Triagem, comparação em pares, correferência e mais
Mais seis tipos de anotação completam as adições da v2.2:
- A triagem oferece uma interface de aceitar/rejeitar/pular para filtrar dados rapidamente, com avanço automático e atalhos de teclado
- A comparação em pares oferece uma escolha binária A/B ou um controle deslizante em escala para aprendizado de preferências e dados de RLHF
- As árvores de conversa suportam anotação hierárquica em árvore com avaliações por nó e seleção de caminhos
- As cadeias de correferência permitem agrupar menções correferentes, com indicadores visuais mostrando as cadeias
- As máscaras de segmentação adicionam ferramentas de preenchimento, borracha e pincel para anotação de imagens em nível de pixel
- Os spans descontínuos (
allow_discontinuous: true) lidam com seleções de texto não contíguas
Anotação mais inteligente
Estimativa de competência MACE
O MACE executa um algoritmo EM de Bayes Variacional para estimar os rótulos verdadeiros e a competência de cada anotador (uma pontuação de 0.0 a 1.0) ao mesmo tempo. Ele sinaliza anotadores confiáveis, identifica spammers e produz rótulos previstos melhores.
mace:
enabled: true
trigger_every_n: 10
min_annotations_per_item: 3Ele roda em segundo plano por conta própria e se conecta ao painel de administração e ao sistema de adjudicação.
Destaque de opções
Esse novo recurso de IA lê o conteúdo e destaca as opções com maior probabilidade de estarem corretas em tarefas discretas. As k melhores opções aparecem em opacidade total com uma estrela ao lado; as demais ficam esmaecidas.
ai_support:
option_highlighting:
enabled: true
top_k: 3
dim_opacity: 0.4Leia a documentação de destaque de opções →
Ordenação por diversidade
Embeddings de sentence-transformer agrupam itens semelhantes em clusters, e então a amostragem round-robin extrai itens de diferentes clusters por vez. Os anotadores veem mais variedade, o que os mantém atentos e dá a você melhor cobertura do espaço de tópicos.
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100Leia a documentação de ordenação por diversidade →
Sistema de exportação
A nova CLI de exportação (python -m potato.export) converte anotações para 6 formatos padrão em um único comando:
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/Formatos suportados: COCO, YOLO, Pascal VOC, CoNLL-2003, CoNLL-U e máscaras de segmentação. Se você precisar de um formato que não está na lista, crie uma subclasse de BaseExporter e escreva o seu próprio.
Leia a documentação de formatos de exportação →
Fontes de dados remotas
Carregue dados de anotação a partir de URLs, S3, Google Drive, Dropbox, datasets do Hugging Face, Google Sheets e bancos de dados SQL:
data_sources:
- type: huggingface
dataset: "squad"
split: "train"
- type: s3
bucket: "my-annotation-data"
key: "datasets/items.jsonl"Ele também lida com carregamento parcial e incremental para datasets grandes, armazena os dados em cache localmente e mantém as credenciais em variáveis de ambiente em vez de na sua configuração.
Leia a documentação de fontes de dados remotas →
Instrumentos de pesquisa
Uma biblioteca de 55 questionários validados que você pode inserir nas fases de pré-estudo e pós-estudo:
phases:
prestudy:
type: prestudy
instrument: "tipi" # 10-item personality questionnaire
poststudy:
type: poststudy
instrument: "phq-9" # 9-item depression screeningEles abrangem 8 categorias: personalidade (BFI-2, TIPI), saúde mental (PHQ-9, GAD-7), afeto (PANAS), autoconceito (RSE), atitudes sociais (SDO-7, MFQ), estilo de resposta, versões abreviadas e baterias demográficas de grandes pesquisas (ANES, GSS, ESS).
Leia a documentação de instrumentos de pesquisa →
Correções menores
- Rastreamento de objetos em vídeo com interpolação de keyframes
- Anotação de caixas delimitadoras em páginas de PDF
- Suporte a um arquivo externo de configuração de IA
- Melhorias na grade de layout de formulários
Atualizando para a v2.2
pip install --upgrade potato-annotationSuas configurações da v2.0 e v2.1 continuam funcionando sem alterações. Tudo que é novo é opcional, por meio de blocos de configuração extras.
Primeiros passos
- Novidades, a visão geral completa dos recursos da v2.2
- Anotação de Eventos, estruturas de eventos n-árias
- Vinculação de Entidades, vinculação a bases de conhecimento
- MACE, estimativa de competência de anotadores
- Formatos de Exportação, a CLI de exportação
- Instrumentos de Pesquisa, 55 questionários validados
Para o changelog completo, incluindo quaisquer chaves de configuração que mudaram, consulte as notas de lançamento da v2.2.0 no repositório.
Tem dúvidas ou comentários? Entre no nosso Discord ou abra uma issue no GitHub.