تقييم الوكلاء متعدد الوسائط

قيّم الوكلاء الذين يتصرفون خارج النص، وكلاء استخدام الحاسوب والـ GUI، والمساعدات الصوتية، والفيديو، ووكلاء المستندات. يضيف Potato مخططات مصممة خصيصًا لمسارات الـ GUI مع تأريض النقر، وخطوط زمنية صوتية مزدوجة الاتجاه، وتأريض الفيديو الزمني مع IoU حي، ووسم أخطاء النص الكلامي، والاستدلال متعدد الوسائط المتشابك، وبنية شبكة الجداول.

تتصرف الوكلاء على نحو متزايد في وسائط تتجاوز النص: فهي تقود واجهات الـ GUI، وتشاهد الفيديو، وتُجري محادثات منطوقة. وتحتاج كل وسيطة إلى واجهة مراجعة لا يستطيع أداة نصية بسيطة توفيرها، لقطة شاشة مع نقرة الوكيل، وخط زمني صوتي مزدوج المسار، وشريط تمرير فيديو مع فترات ذهبية. يضيف Potato مخططات تعليق مصممة خصيصًا لهذه الآثار، إلى جانب عروضه القائمة لـالصورة والصوت والفيديو.

يشتقّ كل مخطط خطواته أو أدواره أو مقاطعه من الأثر عند العرض، ويأتي كلٌّ منها بمثال قابل للتشغيل تحت examples/agent-traces/.

مسار الـ GUI/استخدام الحاسوب (`gui_trajectory`)

قيّم وكيل استخدام حاسوب أو GUI أو نظام تشغيل خطوة بخطوة (OSWorld، NeurIPS 2024؛ ScreenSpot-Pro؛ AndroidWorld). تعرض كل خطوة لقطة الشاشة التي رآها الوكيل والفعل الذي اتخذه؛ ويحكم المُعلّق على الفعل (صحيح / عنصر خاطئ / فعل خاطئ / مهلوس). وحين تحمل الخطوة إحداثيات نقر، يبيّن مؤشر تأريض على لقطة الشاشة ما إذا كانت النقرة قد وقعت على العنصر الصحيح.

خطوة استخدام حاسوب مع حكم على الفعل ومؤشر تأريض للنقر راجع كل خطوة استخدام حاسوب: صحة الفعل إلى جانب تأريض النقر على لقطة الشاشة

yaml

annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot   # field on each step holding an image URL / data-URI
    action_key: action           # field holding the action text
    coord_space: normalized      # normalized (0..1) | pixels — for the x/y grounding marker
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

قد توفّر كل خطوة screenshot وaction وx/y اختياريًّا (أو click: {x, y} متداخلًا). ويُخزَّن قائمةً من {index, step, verdict, notes}.

التفاعل الصوتي/مزدوج الاتجاه (`voice_interaction`)

علّق على محادثة منطوقة بين الإنسان↔الوكيل من حيث تبادل الأدوار والتعامل مع المقاطعة (Full-Duplex-Bench، 2025). يضع خط زمني مزدوج المسار (مسار للمستخدم ومسار للوكيل) كل دور وفق وقت بدايته ونهايته، ويُبرز مناطق التداخل حيث يتكلم المتحدثان معًا. يصنّف المُعلّق كل تداخل (ينبغي للوكيل أن يستجيب / أن يستأنف / إشارة دعم / غير مؤكد) ويقيّم تبادل الأدوار العام؛ ويُشغَّل الصوت المصدري داخل الصفحة حين يُوفَّر.

خط زمني صوتي مزدوج المسار مع منطقة مقاطعة مُبرَزة خط زمني صوتي مزدوج المسار مع كشف المقاطعة وتسجيل درجة تبادل الأدوار

yaml

annotation_schemes:
  - annotation_type: voice_interaction
    name: turn_taking
    description: "Classify each barge-in/overlap and rate the overall turn-taking."
    turns_key: turns           # list of {speaker, start, end, text} (seconds)
    speaker_key: speaker
    user_speakers: [user, human, caller]   # everything else is treated as the agent
    overlap_labels: [agent_should_respond, agent_should_resume, backchannel, uncertain]
    rating_scale: 5
    # audio_key: audio         # optional per-instance audio URL to enable the player

تُحسب التداخلات بين أدوار متحدثين مختلفين عند العرض. وتُخزَّن على هيئة {"overlaps": {idx: label}, "rating": int}.

التأريض الزمني للفيديو (`temporal_grounding`)

حدِّد فترات زمن الأحداث في فيديو لتقييم التأريض الزمني (TimeScope، 2025؛ ET-Bench). لكل مطالبة حدث يضبط المُعلّق [start, end] الذهبي، بالتقاط رأس التشغيل أو بكتابة الثواني. وحين تحمل البيانات فترة متوقَّعة من نموذج، يتحدّث IoU حي وخط زمني مصغّر من شريطين (المتوقَّع مقابل الذهبي) أثناء الضبط. وهذا مصمَّم خصيصًا لتسجيل درجة التموضع المتوقَّع مقابل الذهبي، بخلاف توسيم المقاطع العام.

شريط تمرير فيديو مع فترة ذهبية وقراءة IoU حية حدِّد فترات الأحداث الذهبية على الفيديو مع IoU حي مقابل توقّع النموذج

yaml

annotation_schemes:
  - annotation_type: temporal_grounding
    name: grounding
    description: "Mark the gold start/end interval for each event. IoU vs prediction updates live."
    video_key: video           # per-instance video URL
    events_key: events         # list of {prompt, predicted: {start, end}} (predicted optional)
    # duration: 120            # optional fixed timeline scale (else inferred from the video)

يُخزَّن على هيئة {"events": {idx: {start, end}}}.

أخطاء النص الكلامي المحاذى (`speech_transcript`)

علّق على نص كلامي محاذى زمنيًّا مقطعًا بمقطع بحثًا عن أخطاء ASR/TTS وجودة الكلام (Speak & Improve، 2025). كل مقطع {start, end, text, speaker?} بطاقةٌ تعرض طابعه الزمني ونصّه؛ ويسِم المُعلّق الأخطاء (خطأ ASR / أثر TTS / خطأ نطق / تردّد) ويمكنه كتابة النص المصحَّح. وهذا مكمّل على مستوى المقطع لعرض تبادل الأدوار في voice_interaction.

مقاطع نص كلامي مع وسوم أخطاء لكل مقطع وتصحيح داخل السطر وسِم أخطاء ASR/TTS/النطق لكل مقطع وصحّح النص داخل السطر

yaml

annotation_schemes:
  - annotation_type: speech_transcript
    name: speech_errors
    description: "Tag speech errors on each segment and correct the transcript where needed."
    segments_key: segments       # list of {start, end, text, speaker?}
    error_types: [asr_error, tts_artifact, mispronunciation, disfluency]
    allow_correction: true
    # audio_key: audio           # optional per-item audio URL to enable the player

يُخزَّن قائمةً من {index, start, end, errors, correction}.

الاستدلال متعدد الوسائط المتشابك (`multimodal_reasoning`)

قيّم أثر استدلال متشابك نص ↔ صورة ↔ أداة ↔ فعل خطوة بخطوة (Multimodal RewardBench 2، 2025؛ Zebra-CoT). كل خطوة كتلة مُصنَّفة، تُعرض داخل السطر وفق نوعها؛ ويحكم المُعلّق على تماسك كل خطوة، هل يتبع الاستدلال الصورة والخطوات السابقة، أم أن العنصر البصري مهلوس؟

أثر استدلال متشابك مع هلوسة بصرية موسومة قيّم كل خطوة من أثر استدلال نص-صورة-أداة من حيث التماسك والهلوسة البصرية

yaml

annotation_schemes:
  - annotation_type: multimodal_reasoning
    name: reasoning_review
    description: "Judge each step: coherent reasoning and grounded visuals?"
    steps_key: steps
    type_key: type     # each step's 'type': text | image | tool | action (inferred if absent)
    verdict_options: [coherent, incoherent, visual_hallucination, uncertain]

قد تحمل كل خطوة text/content أو image/image_url (+caption) أو tool/args. ويُخزَّن قائمةً من {index, step, type, verdict, notes}.

بنية شبكة الجداول (`table_grid`)

علّق على بنية خلايا صورة جدول، وهي الجزء الخاص بالمستندات الذي لا تستطيع المربعات المحيطة البسيطة التقاطه (OmniDocBench، CVPR 2025؛ RealHiTBench). يضبط المُعلّق أبعاد الشبكة وينقر الخلايا لتحديد دورها (بيانات / ترويسة عمود / ترويسة صف / فارغة). أما مربعات المناطق لكل صفحة فيغطّيها أصلًا تشغيل تعليق الصور لكل صفحة، فيركّز هذا المخطط على البنية التي لا تستطيع تلك المربعات التعبير عنها.

صورة جدول مع خلايا موسومة بوصفها ترويسات وبيانات وفارغة علّق على بنية خلايا جدول المستند: ترويسات الأعمدة والصفوف، والبيانات، والخلايا الفارغة

yaml

annotation_schemes:
  - annotation_type: table_grid
    name: structure
    description: "Set the grid size, then click cells to mark headers and empty cells."
    image_key: image           # per-instance table image URL / data-URI
    rows_key: rows             # optional initial dims from the data
    cols_key: cols
    roles: [data, col_header, row_header, empty]   # click cycles through these

يُخزَّن على هيئة {rows, cols, cells: {"r,c": role}}، مع الإبقاء على الخلايا غير ذات الدور data فقط.

تقييم الوكلاء متعدد الوسائط

مسار الـ GUI/استخدام الحاسوب (gui_trajectory)

التفاعل الصوتي/مزدوج الاتجاه (voice_interaction)

التأريض الزمني للفيديو (temporal_grounding)

أخطاء النص الكلامي المحاذى (speech_transcript)

الاستدلال متعدد الوسائط المتشابك (multimodal_reasoning)

بنية شبكة الجداول (table_grid)

ذات صلة

مسار الـ GUI/استخدام الحاسوب (`gui_trajectory`)

التفاعل الصوتي/مزدوج الاتجاه (`voice_interaction`)

التأريض الزمني للفيديو (`temporal_grounding`)

أخطاء النص الكلامي المحاذى (`speech_transcript`)

الاستدلال متعدد الوسائط المتشابك (`multimodal_reasoning`)

بنية شبكة الجداول (`table_grid`)