تقييم وكلاء استخدام الحاسوب والوكلاء متعددي الوسائط

كيفية التقييم البشري لوكلاء استخدام الحاسوب والـ GUI، إضافةً إلى وكلاء الصوت والفيديو والمستندات، بالحكم على كل فعل ونقرة، وتسجيل درجة تبادل الأدوار، وتأريض الأحداث في الزمن.

يتحكّم وكيل استخدام الحاسوب في واجهة رسومية كما يفعل الإنسان: يقرأ لقطة شاشة، ويقرّر فعلًا (نقر، كتابة، تمرير)، ثم يتصرف. وتقييمه يعني التحقق، خطوة بخطوة، مما إذا كان كل فعل صحيحًا وما إذا كانت النقرة قد وقعت فعلًا على العنصر المقصود، لا مجرد ما إذا نجحت المهمة في النهاية. Potato أداة مفتوحة المصدر للتقييم البشري لوكلاء استخدام الحاسوب والـ GUI والصوت والفيديو والمستندات، مع واجهات تعليق مصممة خصيصًا لكل وسيطة.

يدرك وكيل استخدام الحاسوب (ويسمى أيضًا وكيل GUI أو نظام تشغيل) الشاشةَ بوصفها بكسلات أو DOM ويتصرف عبر الضوابط نفسها المتاحة للمستخدم. وتسجّل معايير مثل OSWorld وScreenSpot وAndroidWorld درجةَ نجاح المهمة تلقائيًّا؛ أما المراجعة البشرية فتضيف ما تفوته الأتمتة، الفعلَ الذي أنتج النتيجة الصحيحة بالمصادفة، أو النقرةَ التي أصابت الزر الخطأ لكنها مع ذلك دفعت المهمة قُدُمًا.

ماذا تحكم عليه في مسار استخدام حاسوب؟

تقرن كل خطوة لقطة شاشة (ما رآه الوكيل) بـفعل (ما فعله). ويحكم المُعلّق على الفعل، وحين تحمل الخطوة إحداثيات نقر، يتحقق من مؤشر التأريض على لقطة الشاشة:

صحة الفعل: صحيح، أو عنصر خاطئ، أو فعل خاطئ، أو مهلوس.
تأريض النقر: هل وقعت الإحداثيات على العنصر الذي سمّاه الفعل؟
النتيجة: هل أكمل التشغيلُ المهمة، وعند أي خطوة أخطأ أول مرة؟

yaml

annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

التقاط أول خطوة خاطئة أهمّ من نجاح/إخفاق واحد، لأن تلك الخطوة هي ما ستصححه أو تدرّب عليه؛ انظر نماذج مكافأة العملية.

كيف أقيّم تبادل الأدوار لوكيل صوتي؟

تُخفق الوكلاء المنطوقة عند مفاصل الأدوار: بمقاطعة المستخدم، أو التكلم فوقه، أو التوقف طويلًا. ويبسط مخطط voice_interaction المحادثةَ على هيئة خط زمني مزدوج المسار ويُبرز مناطق التداخل حيث يتكلم المتحدثان معًا، فيصنّفها المُعلّق (ينبغي للوكيل أن يستجيب، أو أن يستأنف، أو أنها كانت إشارة دعم، أو أنها غير واضحة) ثم يقيّم تبادل الأدوار العام. وهذا عرض مزدوج الاتجاه لا يستطيع نصٌّ مسطّح التعبير عنه.

كيف أسجّل درجة وكلاء الفيديو والمستندات؟

التأريض الزمني للفيديو: لكل مطالبة حدث، حدِّد الفترة الذهبية [start, end]؛ وحين تتضمن البيانات فترة متوقَّعة من نموذج، يتحدّث IoU حي أثناء الضبط، فتسجّل درجة التموضع مباشرةً.
النصوص الكلامية: وسِم أخطاء ASR/TTS مقطعًا بمقطع وصحّح النص داخل السطر.
جداول المستندات: حدِّد بنية الخلايا (ترويسات الأعمدة، وترويسات الصفوف، والبيانات، والفارغة) التي لا تستطيع المربعات المحيطة التقاطها.
الاستدلال المتشابك: قيّم كل خطوة من أثر نص-صورة-أداة من حيث التماسك ووسِم الهلوسات البصرية.

كلٌّ منها مخطط منفصل في مرجع الوكلاء متعدد الوسائط، ويمكن لعدة مخططات أن تعمل على المهمة نفسها.

أي مخطط ينبغي أن أستخدم؟

نوع الوكيل	المخطط	ما تُعلّقه
استخدام الحاسوب / GUI	`gui_trajectory`	صحة الفعل + تأريض النقر
الصوت / المنطوق	`voice_interaction`	التعامل مع المقاطعة وتبادل الأدوار
الفيديو	`temporal_grounding`	فترات الأحداث الذهبية مقابل التوقّع (IoU)
النص الكلامي	`speech_transcript`	أخطاء ASR/TTS لكل مقطع
المستند / الجدول	`table_grid`	أدوار بنية الخلايا
الاستدلال متعدد الوسائط	`multimodal_reasoning`	تماسك الخطوة والهلوسة البصرية

قراءات إضافية

تقييم الوكلاء متعدد الوسائط — مرجع المخططات الكامل
تقييم وكلاء الويب — وكلاء الويب القائمون على لقطة الشاشة والفعل
كيفية تقييم وكلاء الذكاء الاصطناعي — مستويات تقييم الوكلاء
كيفية تقييم الأنظمة متعددة الوكلاء