Question 1

هل يمكنني تقييم آثار تنفيذ وكلاء البرمجة مثل Claude Code أو Cursor أو SWE-Agent؟

Accepted Answer

نعم. يتضمن Potato محوّلات آثار أصلية لـ Claude Code وOpenCode وCursor وAider وSWE-Agent. تُعرض استدعاءات الأدوات بواجهة مخصصة: عرض diff موحّد بالأحمر/الأخضر لـ Edit/Write، وكتل طرفية أحادية المسافة بخلفية داكنة لـ Bash، وكود بأرقام أسطر لـ Read/Grep، وشريط جانبي لشجرة الملفات يجمع كل الملفات المعدَّلة حسب نوع العملية. تُطوى المخرجات الطويلة تلقائيًا.

Question 2

هل يمكنني تقييم وكلاء يتصفحون الويب؟

Accepted Answer

نعم. يوفّر Potato عرض Web Agent مع طبقات SVG لعلامات النقر، ومربعات الإحاطة، ومسارات الفأرة، ومؤشرات التمرير. وضعان: Review Mode للتنقل بأسلوب الشريط الفيلمي عبر لقطات شاشة مسجّلة مسبقًا، وCreation Mode للتصفح الحي القائم على iframe مع تسجيل تلقائي للتفاعلات. تأتي معه محوّلات آثار لصيغ WebArena وMind2Web وAnthropic Computer Use.

Question 3

هل يمكنني تقييم الأنظمة متعددة الوكلاء التي تضمّ عدة وكلاء متعاونين؟

Accepted Answer

نعم. يعرض Potato التشغيل متعدد الوكلاء بوصفه رسم تفاعل بياني قابل للنقر للوكلاء وعمليات التسليم، ويضيف مخططات لعزو الإخفاق إلى الوكيل والخطوة المسؤولين، ومراجعة كل عملية تسليم بحثًا عن عدم المواءمة بين الوكلاء، وتسجيل درجة كل وكيل والفريق، ووسم تنازع الأدوات والسلوك الناشئ عبر الوكلاء. انظر توثيق تقييم الفِرق متعددة الوكلاء.

Question 4

هل يمكنني تقييم وكلاء استخدام الحاسوب أو الصوت أو الفيديو؟

Accepted Answer

نعم. لدى Potato مخططات مصممة خصيصًا للوكلاء متعددي الوسائط: مسارات GUI/استخدام الحاسوب مع لقطات شاشة لكل خطوة وتأريض النقر، وخطوط زمنية صوتية كاملة الازدواج مع كشف المقاطعة، والتأريض الزمني للفيديو مع IoU حي مقابل توقّع النموذج، ووسم أخطاء النص الكلامي المحاذى، والاستدلال متعدد الوسائط المتشابك، وبنية شبكة جداول المستندات. انظر توثيق تقييم الوكلاء متعدد الوسائط.

Question 5

هل يمكن للمعلّقين مشاهدة وكيل ذكاء اصطناعي يتصفح الويب في الوقت الفعلي؟

Accepted Answer

نعم. يربط وضع Live Agent نموذج LLM رؤيوي (Anthropic Claude عبر Playwright) بمتصفح بلا واجهة. يلتقط الوكيل لقطات الشاشة، ويخطط LLM للإجراءات، ويبث Potato الجلسة إلى المعلِّق عبر Server-Sent Events. يمكن للمعلِّقين الإيقاف المؤقت أو إرسال تعليمات أو الاستحواذ على التحكم اليدوي أثناء الجلسة. يُكوَّن عبر نوع العرض `live_agent`.

Question 6

هل يمكنني التراجع أو التفرع أو إعادة تشغيل جلسة وكيل أثناء التقييم؟

Accepted Answer

نعم. يدعم وضع وكيل البرمجة نقاط حفظ/تراجع في أي خطوة، والتفرّع/إعادة التشغيل لاستكشاف مسارات بديلة. مفيد للتقييم المضاد للواقع، ومقارنات A/B بين قرارات الوكلاء، والتقاط بيانات تدريب عالية الجودة عبر تحسين تشغيل الوكيل بشكل تدريجي من قِبل المعلِّقين.

Question 7

هل يمكنني التعليق على الأخطاء على مستوى كل خطوة في مسار الوكيل؟

Accepted Answer

نعم. يعرض مخطّط trajectory_eval (المستند إلى TRAIL وAgentRewardBench) كل خطوة على هيئة بطاقة. يضع المعلِّقون علامة على الصحة، ويصنّفون أنواع الخطأ من تصنيف قابل للتهيئة مع أنواع فرعية (الاستدلال، التنفيذ، السلامة، إلخ)، ويعيّنون شدة بنقاط مرجّحة، ويكتبون مبررات لكل خطوة. يجمع مقياس جودة محسوب تلقائيًا عقوبات الشدة عبر كامل المسار.

Question 8

هل يمكنني جمع بيانات تدريب لنموذج مكافأة العملية (PRM) ومراجعة الكود؟

Accepted Answer

نعم. يشحن Potato مخطّطات process reward وcode review لتقييم وكلاء البرمجة على مستوى الخطوة. يُصدَّر كلا نوعَي التعليق مباشرة إلى صيغتَي PRM وDPO للتدريب اللاحق RLHF. راجع المشروع المثالي coding-agent-evaluation.

Question 9

هل يمكن للمعلِّقين طلب المساعدة من LLM أثناء تقييم وكيل؟

Accepted Answer

نعم. الشريط الجانبي LLM Chat هو لوحة مساعد ذكاء اصطناعي قابلة للطي تدعم المحادثة متعددة الأدوار. يستقبل وصف المهمة، ومجموعة التسميات، ونص العيّنة الحالية بوصفها سياقًا. دعم محادثة متعددة الأدوار محلي لـ OpenAI وAnthropic وOllama. تُسجَّل كل المحادثات بوصفها بيانات سلوكية لتحليل تعاون المعلِّق مع LLM لاحقًا.

Question 10

Can I use Potato with agents built on LangChain?

Accepted Answer

Yes. Potato converts LangChain/LangSmith traces automatically.

Question 11

هل يمكنني التقاط آثار الوكلاء تلقائيًا من تطبيق LangChain الخاص بي؟

Accepted Answer

نعم. ثبّت `pip install potato-annotation[langchain]` واربط `PotatoCallbackHandler` بسلسلتك. يتتبع علاقات الأبوة والبنوة بين عمليات chain/LLM/tool ويرسل حمولات متوافقة مع LangSmith إلى Potato عند اكتمال السلسلة الجذرية. مع مستقبل webhook، يمكنك ضخ آثار وكلاء حية إلى طوابير التعليق بلا تصدير يدوي.

Question 12

ما صيغ آثار الوكلاء التي يدعمها Potato جاهزة؟

Accepted Answer

ثلاث عشرة صيغة موزعة على ثلاث فئات. **أُطر العمل**: LangChain وLangFuse وOpenAI وAnthropic وMCP (Model Context Protocol) وOpenTelemetry وATIF. **وكلاء الويب**: WebArena وآثار ويب خام. **وكلاء البرمجة**: Claude Code وAider وSWE-Agent. إضافةً إلى مسار ضخّ JSONL عام مع مخطط `structured_turns` لأي صيغة مخصّصة. القائمة الكاملة على /integrations.

Question 13

هل يمكنني الجمع بين عدة مخطّطات تقييم في مهمة تعليق وكيل واحدة؟

Accepted Answer

نعم. يمكن لمشروع وكيل برمجة أن يُكدّس trajectory_eval (أخطاء لكل خطوة)، وتعليق span (إبراز الهلوسات في استدلال الوكيل)، ومقارنة pairwise (أيّ وكيل أفضل)، وتقييمات Likert (الجودة الإجمالية) على الأثر نفسه. تجعل بنية Potato متعددة المخطّطات المعلِّقين يرون كل المخطّطات في واجهة واحدة لنفس الأثر.

Question 14

Do I need a GPU or API key for live agent evaluation?

Accepted Answer

No. The live agent supports Ollama for fully local inference with no API key.

Question 15

Can I evaluate multi-agent systems?

Accepted Answer

Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.

Question 16

What if my agent framework is not listed?

Accepted Answer

Use the generic ReAct converter or the webhook API to send traces in any JSON format.

Question 17

Can annotators interact with agents during evaluation?

Accepted Answer

Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.

Question 18

How do I export agent annotations for training?

Accepted Answer

Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.

Agent Evaluation

Agent Evaluation

لا تزال لديك أسئلة؟