このページはまだお使いの言語に翻訳されていません。英語版を表示しています。
Ordinamento per Diversità
Diversificazione degli elementi basata su embedding per massimizzare la varietà delle annotazioni.
Ordinamento per Diversità
L'ordinamento per diversità usa embedding sentence-transformer per raggruppare gli elementi simili, poi campiona gli elementi in modo round-robin da cluster diversi. Questo garantisce che gli annotatori vedano contenuti diversificati piuttosto che elementi simili in sequenza.
Vantaggi
- Riduce l'affaticamento degli annotatori da contenuti ripetitivi
- Migliora la qualità delle annotazioni attraverso contesti variati
- Copertura più rapida dell'intero spazio degli argomenti
Avvio Rapido
yaml
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100Come Funziona
- Avvio: I primi N elementi vengono incorporati usando sentence-transformers e raggruppati con k-means
- Assegnazione: Gli elementi vengono campionati round-robin dai cluster, garantendo varietà
- Annotazione: I nuovi elementi vengono incorporati in modo asincrono man mano che vengono annotati
- Re-clustering: Quando un utente ha campionato da tutti i cluster, il sistema effettua nuovamente il clustering
Configurazione
yaml
diversity_ordering:
enabled: true
# Modello sentence-transformer
model_name: "all-MiniLM-L6-v2"
# Parametri di clustering
num_clusters: 10
items_per_cluster: 20
auto_clusters: true # Calcola automaticamente in base alla dimensione dei dati
# Pre-compilazione all'avvio
prefill_count: 100
batch_size: 32
# Comportamento di re-clustering
recluster_threshold: 1.0 # Ri-clustera quando tutti i cluster sono stati campionati
# Preservazione dell'ordine
preserve_visited: true
# Integrazione AI
trigger_ai_prefetch: trueRiferimento alla Configurazione
| Opzione | Tipo | Predefinito | Descrizione |
|---|---|---|---|
enabled | booleano | false | Abilita l'ordinamento per diversità |
model_name | stringa | "all-MiniLM-L6-v2" | Modello sentence-transformers |
num_clusters | intero | 10 | Numero di cluster (quando auto_clusters=false) |
items_per_cluster | intero | 20 | Dimensione target del cluster (quando auto_clusters=true) |
auto_clusters | booleano | true | Calcola automaticamente il numero di cluster |
prefill_count | intero | 100 | Elementi da incorporare all'avvio |
batch_size | intero | 32 | Dimensione del batch per il calcolo degli embedding |
recluster_threshold | float | 1.0 | Frazione dei cluster da campionare prima del re-clustering |
preserve_visited | booleano | true | Mantieni gli elementi visitati/saltati al loro posto |
trigger_ai_prefetch | booleano | true | Attiva la cache AI dopo il riordinamento |
Requisiti
bash
pip install sentence-transformers scikit-learnQueste sono dipendenze opzionali. Senza di esse, la funzionalità verrà disabilitata con un avviso.
Prestazioni
- Avvio: ~10 secondi per 100 elementi, ~30 secondi per 500 elementi (prima esecuzione; poi memorizzata nella cache)
- Memoria: ~1,5 KB per elemento (all-MiniLM-L6-v2), ~15 MB per 10.000 elementi
- Cache: Gli embedding vengono persisti su disco in
.diversity_cache/
Interazione con Altre Funzionalità
- Supporto AI: Quando
trigger_ai_prefetch: true, i suggerimenti AI vengono precaricati automaticamente per gli elementi riordinati - Apprendimento Attivo: Può essere combinato iniziando con il clustering per diversità per la copertura iniziale, poi passando all'apprendimento attivo
- Preservazione dell'Ordine: Quando
preserve_visited: true, gli elementi visti in precedenza mantengono la loro posizione
Esempio Completo
yaml
annotation_task_name: "Diversity Ordering Test"
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
model_name: "all-MiniLM-L6-v2"
num_clusters: 5
auto_clusters: false
prefill_count: 100
batch_size: 16
recluster_threshold: 1.0
preserve_visited: true
annotation_schemes:
- annotation_type: radio
name: topic
description: "What is the main topic of this text?"
labels:
- name: Sports
- name: Technology
- name: Food
- name: Travel
- name: HealthUlteriori Letture
- Supporto AI - Suggerimenti di etichette AI
- Apprendimento Attivo - Prioritizzazione delle istanze basata su ML
- Evidenziazione delle Opzioni - Guida alle opzioni assistita da AI
Per i dettagli di implementazione, consulta la documentazione sorgente.