Skip to content
Guides4 min read

تقييم وكلاء الصوت والفيديو

شرح للتقييم البشري للوكلاء المنطوقين والمرئيين ووكلاء الوثائق في Potato: تقييم تبادل الأدوار على خط زمني مزدوج المسار، وربط أحداث الفيديو بحساب IoU حي، وتوسيم أخطاء الكلام، وتعليم بنية الجداول.

Potato Team

الوكلاء الذين يتكلمون، ويشاهدون الفيديو، ويقرؤون الوثائق يفشلون بطرق لا يمكن لمربع نصي أن يُظهرها. تكمن أخطاء الوكيل الصوتي عند مفاصل الأدوار؛ وجواب وكيل الفيديو فترة زمنية لا جملة؛ وخطأ وكيل الوثائق خلية جدول أُسيئت قراءتها. يحتاج كل من هذه إلى سطح مراجعة مُشكَّل وفق الوسيط. يضيف Potato أربعة أسطح كهذه — للصوت والفيديو والكلام والوثائق — إلى جانب عرضَيه القائمَين لـالصورة والصوت. والمرجع الكامل هو تقييم الوكلاء متعددي الوسائط.

لكل وسيط سطح مراجعة خاص به: الصوت والفيديو والكلام والوثيقةلا يمكن لأداة نصية بسيطة أن تعبّر عن مقاطعة، أو فترة حدث، أو خلية جدول

كيف أُقيّم تبادل الأدوار لدى وكيل صوتي؟

تتعطّل الوكلاء المنطوقة عند الحدود: قطع كلام المستخدم، أو التحدث فوقه، أو التوقف طويلًا حتى يستسلم المستخدم. يفرد مخطط voice_interaction المحادثة كـخط زمني مزدوج المسار — مسار للمستخدم ومسار للوكيل — ويُبرز مناطق التداخل التي يتحدث فيها الطرفان معًا (Full-Duplex-Bench، 2025). تُصنّف كل تداخل وتقيّم تبادل الأدوار عمومًا؛ ويُشغَّل الصوت ضمنيًا عند توفّره.

خط زمني صوتي مزدوج المسار مع منطقة مقاطعة مُبرَزةخط زمني صوتي مزدوج المسار مع كشف المقاطعة وتقييم تبادل الأدوار

yaml
annotation_schemes:
  - annotation_type: voice_interaction
    name: turn_taking
    description: "Classify each barge-in/overlap and rate the overall turn-taking."
    turns_key: turns
    speaker_key: speaker
    user_speakers: [user, human, caller]
    overlap_labels: [agent_should_respond, agent_should_resume, backchannel, uncertain]
    rating_scale: 5

تُحسب التداخلات من توقيتات الأدوار وقت العرض، بحيث تصير محادثة مزدوجة الاتجاه بالكامل — كان النص المسطّح سيطويها إلى «تحدّثا معًا» — مجموعةً من اللحظات الملموسة القابلة للتوسيم.

كيف أُقيّم الربط الزمني لوكيل فيديو؟

جواب وكيل الفيديو عن سؤال «متى يقع الهدف؟» فترةٌ، فتُقيّمه على هذا الأساس. يمنحك مخطط temporal_grounding شريط تمرير تُعلّم به الفترة الذهبية [start, end] لكل موجّه حدث، بالتقاط مؤشر التشغيل أو كتابة الثواني. وحين تحمل البيانات الفترة التي تنبّأ بها النموذج، يتحدّث حساب IoU حي وخط زمني مصغّر بشريطين أثناء تعديلك (TimeScope، 2025).

شريط تمرير فيديو مع فترة ذهبية وقراءة IoU حيةعلّم فترات الأحداث الذهبية على الفيديو مع حساب IoU حي مقابل تنبؤ النموذج

yaml
annotation_schemes:
  - annotation_type: temporal_grounding
    name: grounding
    description: "Mark the gold start/end interval for each event. IoU vs prediction updates live."
    video_key: video
    events_key: events

هذا مبني لتحديد الموضع المتنبَّأ مقابل الذهبي، وهو عمل مختلف عن توسيم المقاطع العام: فأنت تقيّم مدى قرب مدى النموذج من الحقيقة، ورؤية IoU يتحرك أثناء سحبك للحدّ تجعل ذلك فوريًا.

ماذا عن نصوص الكلام والاستدلال والجداول؟

ثلاثة أسطح أخرى تغطّي بقية الطيف متعدد الوسائط:

  • نصوص الكلام (speech_transcript): كل مقطع محاذٍ زمنيًا بطاقة؛ تُوسّم أخطاء ASR/TTS، وأخطاء النطق، والتلعثم، وتصحّح النص ضمنيًا (Speak & Improve، 2025). وهذا هو المكمّل على مستوى المقطع لعرض تبادل الأدوار.
  • الاستدلال المتشابك (multimodal_reasoning): أثر نص-صورة-أداة مُصيَّر كتل مُصنَّفة؛ تقيّم تماسك كل خطوة وتُشير إلى الهلوسات البصرية حيث لا يتبع الاستدلال من الصورة (Multimodal RewardBench 2، 2025).
  • جداول الوثائق (table_grid): تضبط أبعاد الشبكة وتنقر الخلايا لتعليم دورها — بيانات، أو عنوان عمود، أو عنوان صف، أو فارغة — ملتقطًا البنية التي لا تستطيع المربعات المحيطة التقاطها.

مقاطع نص كلام مع وسوم أخطاء لكل مقطع وتصحيح ضمنيوسّم أخطاء ASR/TTS/النطق لكل مقطع وصحّح النص ضمنيًا

yaml
annotation_schemes:
  - annotation_type: speech_transcript
    name: speech_errors
    description: "Tag speech errors on each segment and correct the transcript where needed."
    segments_key: segments
    error_types: [asr_error, tts_artifact, mispronunciation, disfluency]
    allow_correction: true

أثر استدلال متشابك مع هلوسة بصرية مُعلَّمةقيّم كل خطوة من أثر استدلال نص-صورة-أداة من حيث التماسك والهلوسة البصرية

يمكن أن تعمل عدة من هذه المخططات على المهمة نفسها، بحيث يمكن تقييم تشغيل وكيل وثائق واحد لبنية الجدول وتماسك الاستدلال في آن واحد.

صورة جدول بخلايا مُعلَّمة كعناوين وبيانات وفارغةوسّم بنية خلايا جدول الوثيقة: عناوين الأعمدة والصفوف، والبيانات، والخلايا الفارغة

كيف أُعدّ هذا؟

يأتي كل سطح مع مثال قابل للتشغيل ضمن examples/agent-traces/:

bash
pip install --upgrade potato-annotation
python potato/flask_server.py start examples/agent-traces/temporal-grounding/config.yaml -p 8000

تدخل بياناتك كأدوار، أو مقاطع، أو أحداث مع طوابع زمنية؛ ويشتق السطح خطه الزمني منها وقت العرض. ولوكلاء الواجهة الرسومية ونظام التشغيل، القطعة المرافقة هي تقييم وكلاء استخدام الحاسوب.

قراءات إضافية