جلب Potato 2.6 الموجة الأولى من تقييم الوكلاء: معايرة نموذج LLM-as-judge، وتحرير المسارات لبيانات التدريب، وعرض eval_trace ثلاثي الأجزاء. وتأتي إصدارات 2.6.x النقطية منذ ذلك الحين لتكمل الباقي. اعتبارًا من الإصدار 2.6.2، صار Potato منصة كاملة لتقييم الوكلاء: يمكنك التقاط الأثر من وكلائك الخاصين، وتوسيم الوكلاء الأفراد وفِرق الوكلاء المتعددين والوكلاء متعددي الوسائط، والحكم عليهم بنماذج LLM يمكنك الوثوق بها، وترتيب النماذج في ساحة، وضبط بوابة الإصدارات في التكامل المستمر. كل ذلك يُضبط بصيغة YAML ويبقى على خادمك الخاص.

رسم بياني تفاعلي قابل للنقر لتفاعل الوكلاء، وهو عنوان تقييم Potato للوكلاء المتعددين تقييم Potato للوكلاء المتعددين

معظم هذه القدرات يدفع الناس حاليًا مقابلها لمنصة مستضافة. يوفّرها Potato مجانًا ومستضافة ذاتيًا. وإليك ما صدر عبر خط الإصدار 2.6.x.

خريطة لمجموعة Potato لتقييم الوكلاء: الاستيعاب، والتوسيم، والحكم، والتشغيل مجموعة تقييم الوكلاء في 2.6.x، من البداية إلى النهاية

أدخِل الأثر: حزمة التقاط ومعايير مفتوحة

يبدأ التقييم بالتشغيلات الحقيقية. تُجهّز حزمة potato_trace الجديدة أي وكيل: ضع مُزخرِف @traceable على دالة (متزامنة أو غير متزامنة) فتُلتقط النداءات المتداخلة وتُرسَل إلى نقطة استيعاب Potato، مع تصدير اختياري إلى OpenTelemetry. كما يستوعب Potato امتدادات OpenTelemetry / OpenInference وصيغ تشغيل LangGraph وCrewAI وAutoGen، بحيث يصل الأثر من إطار العمل الذي تستخدمه أصلًا إلى طابور التوسيم دون شيفرة وصل. يمكن للأثر الجديد أن يصل عبر خطّاف ويب، أو مُستقصٍ، أو دليل مُراقَب، فيصير قابلًا للإسناد إلى المُوسِّمين فور وصوله.

المرجع: حزمة تتبّع الأثر، قواعد الأتمتة.

شاهد الفريق كله: تقييم الوكلاء المتعددين

هذا هو الجزء الذي لا نظير مفتوح المصدر له. يفشل تشغيل الوكلاء المتعددين بطريقة مختلفة عن الوكيل الفرد، بين الوكلاء، عند تسليم زمام المهمة، وفي طريقة تنظيم الفريق، لذا يوسّم Potato بنية الفريق بدلًا من نص مسطّح:

رسم بياني تفاعلي قابل للنقر للوكلاء وعمليات التسليم، حيث تحدّد المسار الحرج وتُعلِّم الحواف المُشكِلة.
إسناد الفشل: اختر الوكيل المسؤول، والخطوة الحاسمة، والسبب، وهو الثلاثي (الوكيل، الخطوة، السبب) من عمل الإسناد Who&When.
مراجعة التسليم: يصبح كل نقل للزمام بطاقةً للإشارة إلى عدم الاتساق بين الوكلاء وتقييم الجودة.
بطاقات أداء لكل وكيل ولكل فريق: الوفاء بالدور، والإسهام، والتنسيق لكل وكيل، إضافة إلى أبعاد الفريق المشتركة ومعالمه.
خط زمني لتنازع الأدوات يُظهر حالات الجمود والتسابق حيث يلمس الوكلاء المورد نفسه في الوقت ذاته.
توسيم السلوك الناشئ للتواطؤ، وتفكير القطيع، والأخطاء المتتالية التي تمتد عبر عدة وكلاء وأدوار.

إسناد فشل وكلاء متعددين إلى وكيل مسؤول، وخطوة حاسمة، وسبب إسناد الفشل: أي وكيل، وأي خطوة، ولماذا

المجموعة الكاملة، مع صيغة YAML لكل منها، موجودة في تقييم فرق الوكلاء المتعددين، والغوص العميق تتبّع أعطال الوكلاء المتعددين يمرّ على كل سطح من البداية إلى النهاية. ويغطّي الدليل كيفية تقييم أنظمة الوكلاء المتعددين متى تستخدم أيًّا منها.

أبعد من النص: تقييم الوكلاء متعددي الوسائط

صار الوكلاء يقودون الواجهات الرسومية، ويشاهدون الفيديو، ويجرون محادثات منطوقة، ويحتاج كل من ذلك إلى سطح مراجعة لا يمكن لأداة نصية أن توفّره:

مسارات الواجهة الرسومية / استخدام الحاسوب: لقطة شاشة وإجراء لكل خطوة، وحكم على الإجراء، وعلامة ربط للنقرة تُظهر ما إذا حطّت النقرة على العنصر الصحيح.
خطوط زمنية صوتية ثنائية الاتجاه بالكامل: خط زمني مزدوج المسار للمستخدم والوكيل مع كشف المقاطعة وتقييم تبادل الأدوار.
الربط الزمني للفيديو: حدّد فترات الأحداث الذهبية مع حساب IoU حي مقابل الفترة التي تنبّأ بها النموذج.
توسيم أخطاء نصوص الكلام، والاستدلال متعدد الوسائط المتشابك مع إشارات للهلوسة البصرية، وبنية شبكة الجداول في الوثائق.

خطوة استخدام حاسوب مع حكم على الإجراء وعلامة ربط للنقرة على لقطة الشاشة مراجعة استخدام الحاسوب: صحة الإجراء إضافة إلى ربط النقرة

هناك غوصان عميقان يشرحان هذه الأسطح: تقييم وكلاء استخدام الحاسوب للواجهات الرسومية ووكلاء نظام التشغيل، وتقييم وكلاء الصوت والفيديو للوكلاء المنطوقين والمرئيين ووكلاء الوثائق. والمرجع هو تقييم الوكلاء متعددي الوسائط، والدليل هو تقييم وكلاء استخدام الحاسوب والوكلاء متعددي الوسائط.

حُكّام يمكنك الوثوق بهم، وساحة

استخدام نموذج LLM لتقدير المخرجات أمر معتاد؛ أما عمل 2.6.x فيدور حول معرفة مدى الثقة به. تُجري معايرة الحَكَم تمريرة بشرية عمياء مقابل وسوم النموذج وتُبلِغ عن الدقة وكابا وخطأ المعايرة المتوقع (ECE). وتضبط مواءمة الحَكَم حَكَمًا واحدًا مقابل وسومك الذهبية. وتُقيّم المُقيّمات البرمجية المسارات والنصوص آليًا (مطابقة المسار، وصحة استخدام الأدوات، ونموذج LLM-as-judge دون مرجع، والاستدلالات التجريبية) دون تشغيل خادم.

للمقارنة المباشرة، تُرسل ساحة النماذج موجّهًا واحدًا إلى عدة نماذج، وتجمع التفضيلات، وتبني لوحة صدارة لمعدل الفوز عبر OpenAI وAnthropic وGemini وOllama وvLLM.

عامِل التقييم كأنه برمجيات

تجعل المكوّنات التشغيلية التقييم قابلًا للتكرار:

مجموعات البيانات والتجارب: مجموعات تقييم مُصدَّرة بالنسخ، وتقسيمات، ومقارنة تجارب جنبًا إلى جنب مع فروق الانحدار.
التقييم في التكامل المستمر: إضافة pytest تُفشل البناء عندما يتسبب تغيير في موجّه أو نموذج بانحدار جودة الوكيل دون عتبة معينة.
قواعد الأتمتة: وجّه أثر الإنتاج الوارد إلى مجموعات البيانات أو المُقيّمات أو طابور التوسيم حسب القاعدة.
التنظيم الدلالي: فهرس تضمينات لـ«ابحث عن أثر يشبه هذا العطل» وشرائح ديناميكية محفوظة.

كيفية الحصول عليه

bash

pip install --upgrade potato-annotation

يأتي كل سطح جديد مع مثال قابل للتشغيل ضمن examples/agent-traces/، يشمل interaction-graph/ وfailure-attribution/ وgui-trajectory/ وtemporal-grounding/. وجّه Potato إلى أحدها لترى المخطط وهو يعمل:

bash

python potato/flask_server.py start examples/agent-traces/interaction-graph/config.yaml -p 8000

إن كنت توازن بين الأدوات، فإن المقارنة في Potato مقابل LangSmith وLangfuse والدليل مقارنة أدوات التوسيم مفتوحة المصدر يبيّنان أين يناسب كلٌّ منها. والأسئلة وصيغ الأثر التي ينبغي أن ندعمها مرحّب بها على مستودع GitHub.