Le surlignage de mots-clés alimenté par l'IA attire l'attention des annotateurs sur les termes, entités ou patterns importants dans le texte. Ce guide explique comment configurer le support IA intégré de Potato pour surligner automatiquement les mots-clés pertinents.

Pourquoi utiliser le surlignage de mots-clés ?

Concentrer l'attention : Guider les annotateurs vers le contenu pertinent
Améliorer la vitesse : Identification plus rapide des informations clés
Réduire les erreurs : Moins de risque de manquer des termes importants
Exploiter l'IA : Laisser les LLM identifier les mots-clés spécifiques au contexte

Surlignage de base alimenté par l'IA

Potato utilise son système de support IA pour identifier et surligner les mots-clés importants. Voici une configuration de base :

yaml

annotation_task_name: "Keyword Highlighted Annotation"
 
data_files:
  - path: "data/reviews.json"
    format: json
 
item_properties:
  id_key: id
  text_key: text
 
annotation_schemes:
  - annotation_type: radio
    name: sentiment
    description: "What is the overall sentiment?"
    labels:
      - Positive
      - Negative
      - Neutral
 
ai_support:
  enabled: true
  endpoint_type: openai
 
  ai_config:
    model: gpt-4
    api_key: ${OPENAI_API_KEY}
    temperature: 0.3
    max_tokens: 500
 
  features:
    keyword_highlighting:
      enabled: true
      # Highlights are rendered as box overlays on the text

Utilisation de différents fournisseurs d'IA

OpenAI

yaml

ai_support:
  enabled: true
  endpoint_type: openai
 
  ai_config:
    model: gpt-4o
    api_key: ${OPENAI_API_KEY}
    temperature: 0.3
    max_tokens: 500
 
  features:
    keyword_highlighting:
      enabled: true

Anthropic Claude

yaml

ai_support:
  enabled: true
  endpoint_type: anthropic
 
  ai_config:
    model: claude-3-sonnet-20240229
    api_key: ${ANTHROPIC_API_KEY}
    temperature: 0.3
    max_tokens: 500
 
  features:
    keyword_highlighting:
      enabled: true
      # Highlights are rendered as box overlays on the text

Ollama local (sans coût API)

yaml

ai_support:
  enabled: true
  endpoint_type: ollama
 
  ai_config:
    model: llama2
    base_url: http://localhost:11434
 
  features:
    keyword_highlighting:
      enabled: true
      # Highlights are rendered as box overlays on the text

Combinaison de fonctionnalités

Le support IA offre plusieurs fonctionnalités qui fonctionnent bien ensemble :

yaml

ai_support:
  enabled: true
  endpoint_type: openai
 
  ai_config:
    model: gpt-4
    api_key: ${OPENAI_API_KEY}
    temperature: 0.3
    max_tokens: 500
 
  features:
    # Highlight important keywords
    keyword_highlighting:
      enabled: true
      # Highlights are rendered as box overlays on the text
 
    # Show contextual hints
    hints:
      enabled: true
 
    # Suggest labels for consideration
    label_suggestions:
      enabled: true
      show_confidence: true

Exemple de configuration complète

Voici une configuration complète pour l'annotation sensible aux entités avec le surlignage IA :

yaml

annotation_task_name: "Entity-Aware Annotation"
 
data_files:
  - path: "data/documents.json"
    format: json
 
item_properties:
  id_key: id
  text_key: text
 
annotation_schemes:
  - annotation_type: span
    name: entities
    labels:
      - name: PERSON
        color: "#FECACA"
      - name: ORG
        color: "#BBF7D0"
      - name: LOCATION
        color: "#BFDBFE"
 
ai_support:
  enabled: true
  endpoint_type: openai
 
  ai_config:
    model: gpt-4
    api_key: ${OPENAI_API_KEY}
    temperature: 0.3
    max_tokens: 500
 
  features:
    keyword_highlighting:
      enabled: true
      # Highlights are rendered as box overlays on the text
    hints:
      enabled: true
    label_suggestions:
      enabled: true
      show_confidence: true
 
  cache_config:
    disk_cache:
      enabled: true
      path: "ai_cache/cache.json"
    prefetch:
      warm_up_page_count: 50
      on_next: 3
      on_prev: 2
 
output_annotation_dir: "output/"
export_annotation_format: json
allow_all_users: true

Mise en cache pour la performance

Activez la mise en cache pour réduire les appels API et améliorer le temps de réponse :

yaml

ai_support:
  enabled: true
  endpoint_type: openai
 
  ai_config:
    model: gpt-4
    api_key: ${OPENAI_API_KEY}
 
  features:
    keyword_highlighting:
      enabled: true
 
  cache_config:
    disk_cache:
      enabled: true
      path: "ai_cache/cache.json"
 
    # Pre-generate highlights on startup and prefetch upcoming
    prefetch:
      warm_up_page_count: 100
      on_next: 5
      on_prev: 2

Conseils

Adaptez les couleurs à votre tâche : Utilisez des couleurs de surlignage qui complètent votre schéma d'annotation
Activez la mise en cache : Évitez les appels API répétés pour le même contenu
Envisagez les modèles locaux : Utilisez Ollama pour l'annotation à haut volume sans coûts API
Combinez les fonctionnalités : Le surlignage de mots-clés fonctionne bien avec les indices et les suggestions d'étiquettes

Documentation complète sur /docs/features/ai-support.