Aprendizado ativo para anotação

O que é aprendizado ativo, quando ele ajuda e as estratégias de consulta que o Potato oferece (incerteza, diversidade, BADGE, BALD) para rotular menos itens com a mesma qualidade de modelo.

O aprendizado ativo escolhe quais itens anotar em seguida para que um modelo atinja a mesma acurácia com muito menos rótulos. Em vez de rotular ao acaso, você rotula os itens que o modelo considera mais informativos. Quando a rotulagem é o gargalo, essa é uma das técnicas de maior retorno disponíveis.

Para uma introdução, veja aprendizado ativo. Para a referência do recurso, veja Aprendizado ativo.

O ciclo

Rotule um pequeno conjunto inicial.
Treine um modelo rápido com o que você tem.
Pontue o conjunto não rotulado e escolha os itens mais informativos.
Anote-os, adicione-os e treine de novo. Repita.

O ganho é eficiência de dados: o modelo aplica seu orçamento de anotação onde mais aprende.

Estratégias de consulta que o Potato oferece

Amostragem por incerteza: escolhe os itens sobre os quais o modelo tem menos confiança (perto da fronteira de decisão). O padrão mais simples e muitas vezes eficaz.
Amostragem por diversidade: escolhe itens diferentes entre si, para não desperdiçar orçamento com quase duplicatas.
BADGE: combina incerteza e diversidade usando embeddings de gradiente.
BALD: estratégia bayesiana que seleciona os itens que devem reduzir mais a incerteza do modelo.
Híbrida: mistura estratégias.

yaml

active_learning:
  enabled: true
  schema_names: [sentiment]
  query_strategy: uncertainty   # or diversity, badge, bald, hybrid
  min_instances_for_training: 20

Quando o aprendizado ativo ajuda e quando não

Ele ajuda quando os rótulos são caros, o conjunto é grande e dá para treinar um modelo útil com um seed pequeno. Ajuda menos quando:

A tarefa é tão fácil que a rotulagem aleatória já satura rápido.
Você precisa de um conjunto de teste reservado e sem viés: mantenha os dados de avaliação com amostragem aleatória, porque os dados selecionados por aprendizado ativo são enviesados de propósito.
Os rótulos são baratos em relação ao esforço de engenharia.

Aprendizado ativo para anotação

O ciclo

Estratégias de consulta que o Potato oferece

Quando o aprendizado ativo ajuda e quando não

Leitura adicional