Skip to content

Aprendizado ativo para anotação

O que é aprendizado ativo, quando ele ajuda e as estratégias de consulta que o Potato oferece (incerteza, diversidade, BADGE, BALD) para rotular menos itens com a mesma qualidade de modelo.

O aprendizado ativo escolhe quais itens anotar em seguida para que um modelo atinja a mesma acurácia com muito menos rótulos. Em vez de rotular ao acaso, você rotula os itens que o modelo considera mais informativos. Quando a rotulagem é o gargalo, essa é uma das técnicas de maior retorno disponíveis.

Para uma introdução, veja aprendizado ativo. Para a referência do recurso, veja Aprendizado ativo.

O ciclo

  1. Rotule um pequeno conjunto inicial.
  2. Treine um modelo rápido com o que você tem.
  3. Pontue o conjunto não rotulado e escolha os itens mais informativos.
  4. Anote-os, adicione-os e treine de novo. Repita.

O ganho é eficiência de dados: o modelo aplica seu orçamento de anotação onde mais aprende.

Estratégias de consulta que o Potato oferece

  • Amostragem por incerteza: escolhe os itens sobre os quais o modelo tem menos confiança (perto da fronteira de decisão). O padrão mais simples e muitas vezes eficaz.
  • Amostragem por diversidade: escolhe itens diferentes entre si, para não desperdiçar orçamento com quase duplicatas.
  • BADGE: combina incerteza e diversidade usando embeddings de gradiente.
  • BALD: estratégia bayesiana que seleciona os itens que devem reduzir mais a incerteza do modelo.
  • Híbrida: mistura estratégias.
yaml
active_learning:
  enabled: true
  schema_names: [sentiment]
  query_strategy: uncertainty   # or diversity, badge, bald, hybrid
  min_instances_for_training: 20

Quando o aprendizado ativo ajuda e quando não

Ele ajuda quando os rótulos são caros, o conjunto é grande e dá para treinar um modelo útil com um seed pequeno. Ajuda menos quando:

  • A tarefa é tão fácil que a rotulagem aleatória já satura rápido.
  • Você precisa de um conjunto de teste reservado e sem viés: mantenha os dados de avaliação com amostragem aleatória, porque os dados selecionados por aprendizado ativo são enviesados de propósito.
  • Os rótulos são baratos em relação ao esforço de engenharia.

Leitura adicional