التقييم المباشر للوكيل

كيف تُقيّم وكيل ذكاء اصطناعي في الوقت الفعلي: الإيقاف المؤقت، وإرسال التعليمات، وتولّي التحكم، والتراجع، والتفريع، باستخدام عرض الوكيل المباشر في Potato.

معظم عمليات تقييم الوكلاء تراجع أثرًا مُسجَّلًا. أما التقييم المباشر فيراقب الوكيل وهو يعمل في الوقت الفعلي ويتيح للإنسان التدخل: إيقافه مؤقتًا، أو إرسال تعليمات إليه، أو تولّي التحكم، أو التراجع لتجربة مسار مختلف. من أجل تقييم الوكلاء مع إدخال الإنسان في الحلقة على خادمك الخاص، Potato أداة مفتوحة المصدر تلتقط أمورًا لا يستطيع التسجيل التقاطها: أين كان الإنسان سيتدخل، وكيف يبدو التوجيه الأفضل.

للاطلاع على مرجع الميزة، انظر التقييم المباشر للوكيل ووكيل البرمجة المباشر.

ما الذي يضيفه التقييم المباشر للوكلاء؟

الإيقاف المؤقت والاستئناف: أوقِف الوكيل في منتصف المهمة لتفحص حالته.
إرسال التعليمات: وجّهه بإرشاد بسيط وراقب كيف يتكيّف.
تولّي التحكم: قُده يدويًّا ثم أعِد التحكم إليه. ونقاط التسليم هذه تشكّل تصنيفات قيّمة.
التراجع والتفريع: عُد إلى خطوة سابقة وجرّب بديلًا، مقارنًا المسارات انطلاقًا من الحالة نفسها.

ينتج عن ذلك بيانات تدخّلية، أي افتراضات مضادة حول ما يُجدي نفعًا، لا مجرد تصنيفات قائمة على الملاحظة.

كيف أُعِدّ التقييم المباشر للوكلاء في Potato؟

يصل الوضع المباشر بين Potato ووكيل قيد التشغيل عبر نقطة نهاية (وسيط متوافق مع OpenAI، أو نقطة نهاية HTTP مخصصة، أو خلفية وكيل برمجة). ويتفاعل المُعلّق من خلال عرض الوكيل المباشر.

yaml

live_agent:
  endpoint_type: anthropic_vision   # or coding_agent, openai_proxy, ...
  ai_config:
    model: claude-sonnet-4-20250514
    api_key: ${ANTHROPIC_API_KEY}
  max_steps: 30
  allow_takeover: true
  allow_instructions: true

متى ينبغي أن أستخدم التقييم المباشر للوكلاء؟

بناء الإرشادات: تكشف المراقبة المباشرة أنماط الإخفاق الجديرة بتدوينها في تصنيف منهجي لأجل التصنيف بالدُّفعات لاحقًا.
المهام التفاعلية: مساعدو الدردشة والوكلاء المستخدمون للأدوات، حيث يكون التفاعل نفسه، لا مجرد النص، هو ما تحكم عليه.
اختبار الإجهاد: استكشاف كيف يتعافى الوكيل من توجيه بسيط أو منعطف مفروض.

التقييم المباشر أكثر استهلاكًا للجهد وأقل إنتاجية من مراجعة الآثار المُسجَّلة، لذا فهو أنسب لعيّنة مركّزة أو لتصميم مهمة الدُّفعات. وللحجم الكبير، انتقل إلى تعليق المسارات على عمليات تشغيل مُسجَّلة.

التقييم المباشر للوكيل

ما الذي يضيفه التقييم المباشر للوكلاء؟

كيف أُعِدّ التقييم المباشر للوكلاء في Potato؟

متى ينبغي أن أستخدم التقييم المباشر للوكلاء؟

قراءات إضافية