Aprendizado ativo para anotação
O que é aprendizado ativo, quando ele ajuda e as estratégias de consulta que o Potato oferece (incerteza, diversidade, BADGE, BALD) para rotular menos itens com a mesma qualidade de modelo.
O aprendizado ativo escolhe quais itens anotar em seguida para que um modelo atinja a mesma acurácia com muito menos rótulos. Em vez de rotular ao acaso, você rotula os itens que o modelo considera mais informativos. Quando a rotulagem é o gargalo, essa é uma das técnicas de maior retorno disponíveis.
Para uma introdução, veja aprendizado ativo. Para a referência do recurso, veja Aprendizado ativo.
O ciclo
- Rotule um pequeno conjunto inicial.
- Treine um modelo rápido com o que você tem.
- Pontue o conjunto não rotulado e escolha os itens mais informativos.
- Anote-os, adicione-os e treine de novo. Repita.
O ganho é eficiência de dados: o modelo aplica seu orçamento de anotação onde mais aprende.
Estratégias de consulta que o Potato oferece
- Amostragem por incerteza: escolhe os itens sobre os quais o modelo tem menos confiança (perto da fronteira de decisão). O padrão mais simples e muitas vezes eficaz.
- Amostragem por diversidade: escolhe itens diferentes entre si, para não desperdiçar orçamento com quase duplicatas.
- BADGE: combina incerteza e diversidade usando embeddings de gradiente.
- BALD: estratégia bayesiana que seleciona os itens que devem reduzir mais a incerteza do modelo.
- Híbrida: mistura estratégias.
active_learning:
enabled: true
schema_names: [sentiment]
query_strategy: uncertainty # or diversity, badge, bald, hybrid
min_instances_for_training: 20Quando o aprendizado ativo ajuda e quando não
Ele ajuda quando os rótulos são caros, o conjunto é grande e dá para treinar um modelo útil com um seed pequeno. Ajuda menos quando:
- A tarefa é tão fácil que a rotulagem aleatória já satura rápido.
- Você precisa de um conjunto de teste reservado e sem viés: mantenha os dados de avaliação com amostragem aleatória, porque os dados selecionados por aprendizado ativo são enviesados de propósito.
- Os rótulos são baratos em relação ao esforço de engenharia.