تقييم استخدام الأدوات واستدعاء الدوال

كيفية تعليق وتقييم استدعاءات الأدوات واستدعاء الدوال لدى وكيل عبر صيغ المسارات المختلفة (OpenAI وAnthropic وReAct وLangChain) باستخدام تقييمات Potato لكل دور.

عندما يستدعي الوكيل أداة، سواء كانت بحثًا أو آلة حاسبة أو واجهة API أو قاعدة بيانات، فإن كل استدعاء قرارٌ يمكنك تقييمه: هل كانت هذه الأداة الصحيحة؟ هل كانت الوسائط صحيحة؟ هل استُخدمت النتيجة بشكل سليم؟ يحوّل تقييم استخدام الأدوات هذه القرارات إلى تصنيفات خطوة بخطوة على طول مسار الوكيل.

هذا هو المكمّل القائم على الحكم البشري لاختبارات استدعاء الدوال الآلية: فقد يكون الاستدعاء صحيحًا نحويًّا ومع ذلك خاطئًا بالنسبة للمهمة.

ماذا تحكم عليه عند كل استدعاء أداة

اختيار الأداة: هل كانت هذه الأداة المناسبة، أم كان ينبغي استخدام أداة أخرى (أو عدم الاستدعاء أصلًا)؟
الوسائط: هل كانت المعاملات صحيحة وكاملة؟
الضرورة: هل كان الاستدعاء لازمًا، أم كان زائدًا؟
التعامل مع النتيجة: هل فسّر الوكيل المُخرَج واستخدمه بشكل صحيح؟

قراءة المسارات من أي إطار عمل

يحوّل Potato 13 صيغة مسار إلى عرض خطوات موحَّد، فتستطيع تقييم استخدام الأدوات بصرف النظر عن كيفية بناء الوكيل: استدعاءات الأدوات/الدوال لدى OpenAI وAnthropic، ومسارات الفكرة-الفعل-الملاحظة لدى ReAct، وLangChain، وLangFuse، وغيرها. انظر تعليق الوكلاء.

إعداد التقييم خطوة بخطوة

أرفِق تقييمًا بكل خطوة (كل استدعاء أداة) مع سؤال متابعة مشروط لحالات الفشل:

yaml

annotation_schemes:
  - annotation_type: per_turn_rating
    name: tool_call_correctness
    description: "For each tool call, judge whether it was the right call."
    target: agentic_steps
    rating_type: radio
    labels: ["Correct", "Wrong tool", "Wrong arguments", "Unnecessary"]
  - annotation_type: text
    name: notes
    description: "If not correct, what should it have done?"
    label_requirement:
      required: false

اعتبارات الجودة

اعرض مُخرَج الأداة، لا الاستدعاء وحده، وإلا تعذّر على المُعلّقين الحكم على التعامل مع النتيجة.
نسّق وسائط JSON والاستجابات بشكل مرتّب لتكون قابلة للقراءة (يفعل Potato ذلك في عرض مسار الوكيل).
ميّز بين "أداة خاطئة" و"أداة صحيحة بوسائط خاطئة"، فكلٌّ منهما يشير إلى إصلاح مختلف في النموذج.

تقييم استخدام الأدوات واستدعاء الدوال

ماذا تحكم عليه عند كل استدعاء أداة

قراءة المسارات من أي إطار عمل

إعداد التقييم خطوة بخطوة

اعتبارات الجودة

قراءات إضافية