Skip to content

تقييم وكلاء استخدام الحاسوب والوكلاء متعددي الوسائط

كيفية التقييم البشري لوكلاء استخدام الحاسوب والـ GUI، إضافةً إلى وكلاء الصوت والفيديو والمستندات، بالحكم على كل فعل ونقرة، وتسجيل درجة تبادل الأدوار، وتأريض الأحداث في الزمن.

يتحكّم وكيل استخدام الحاسوب في واجهة رسومية كما يفعل الإنسان: يقرأ لقطة شاشة، ويقرّر فعلًا (نقر، كتابة، تمرير)، ثم يتصرف. وتقييمه يعني التحقق، خطوة بخطوة، مما إذا كان كل فعل صحيحًا وما إذا كانت النقرة قد وقعت فعلًا على العنصر المقصود، لا مجرد ما إذا نجحت المهمة في النهاية. Potato أداة مفتوحة المصدر للتقييم البشري لوكلاء استخدام الحاسوب والـ GUI والصوت والفيديو والمستندات، مع واجهات تعليق مصممة خصيصًا لكل وسيطة.

يدرك وكيل استخدام الحاسوب (ويسمى أيضًا وكيل GUI أو نظام تشغيل) الشاشةَ بوصفها بكسلات أو DOM ويتصرف عبر الضوابط نفسها المتاحة للمستخدم. وتسجّل معايير مثل OSWorld وScreenSpot وAndroidWorld درجةَ نجاح المهمة تلقائيًّا؛ أما المراجعة البشرية فتضيف ما تفوته الأتمتة، الفعلَ الذي أنتج النتيجة الصحيحة بالمصادفة، أو النقرةَ التي أصابت الزر الخطأ لكنها مع ذلك دفعت المهمة قُدُمًا.

ماذا تحكم عليه في مسار استخدام حاسوب؟

تقرن كل خطوة لقطة شاشة (ما رآه الوكيل) بـفعل (ما فعله). ويحكم المُعلّق على الفعل، وحين تحمل الخطوة إحداثيات نقر، يتحقق من مؤشر التأريض على لقطة الشاشة:

  • صحة الفعل: صحيح، أو عنصر خاطئ، أو فعل خاطئ، أو مهلوس.
  • تأريض النقر: هل وقعت الإحداثيات على العنصر الذي سمّاه الفعل؟
  • النتيجة: هل أكمل التشغيلُ المهمة، وعند أي خطوة أخطأ أول مرة؟
yaml
annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

التقاط أول خطوة خاطئة أهمّ من نجاح/إخفاق واحد، لأن تلك الخطوة هي ما ستصححه أو تدرّب عليه؛ انظر نماذج مكافأة العملية.

كيف أقيّم تبادل الأدوار لوكيل صوتي؟

تُخفق الوكلاء المنطوقة عند مفاصل الأدوار: بمقاطعة المستخدم، أو التكلم فوقه، أو التوقف طويلًا. ويبسط مخطط voice_interaction المحادثةَ على هيئة خط زمني مزدوج المسار ويُبرز مناطق التداخل حيث يتكلم المتحدثان معًا، فيصنّفها المُعلّق (ينبغي للوكيل أن يستجيب، أو أن يستأنف، أو أنها كانت إشارة دعم، أو أنها غير واضحة) ثم يقيّم تبادل الأدوار العام. وهذا عرض مزدوج الاتجاه لا يستطيع نصٌّ مسطّح التعبير عنه.

كيف أسجّل درجة وكلاء الفيديو والمستندات؟

  • التأريض الزمني للفيديو: لكل مطالبة حدث، حدِّد الفترة الذهبية [start, end]؛ وحين تتضمن البيانات فترة متوقَّعة من نموذج، يتحدّث IoU حي أثناء الضبط، فتسجّل درجة التموضع مباشرةً.
  • النصوص الكلامية: وسِم أخطاء ASR/TTS مقطعًا بمقطع وصحّح النص داخل السطر.
  • جداول المستندات: حدِّد بنية الخلايا (ترويسات الأعمدة، وترويسات الصفوف، والبيانات، والفارغة) التي لا تستطيع المربعات المحيطة التقاطها.
  • الاستدلال المتشابك: قيّم كل خطوة من أثر نص-صورة-أداة من حيث التماسك ووسِم الهلوسات البصرية.

كلٌّ منها مخطط منفصل في مرجع الوكلاء متعدد الوسائط، ويمكن لعدة مخططات أن تعمل على المهمة نفسها.

أي مخطط ينبغي أن أستخدم؟

نوع الوكيلالمخططما تُعلّقه
استخدام الحاسوب / GUIgui_trajectoryصحة الفعل + تأريض النقر
الصوت / المنطوقvoice_interactionالتعامل مع المقاطعة وتبادل الأدوار
الفيديوtemporal_groundingفترات الأحداث الذهبية مقابل التوقّع (IoU)
النص الكلاميspeech_transcriptأخطاء ASR/TTS لكل مقطع
المستند / الجدولtable_gridأدوار بنية الخلايا
الاستدلال متعدد الوسائطmultimodal_reasoningتماسك الخطوة والهلوسة البصرية

قراءات إضافية