Agent Evaluation
اعثر على إجابات للأسئلة الشائعة حول Potato. لم تجد ما تبحث عنه؟ انضم إلى Discord أو تصفّح التوثيق.
Agent Evaluation
نعم. يتضمن Potato محوّلات آثار أصلية لـ Claude Code وOpenCode وCursor وAider وSWE-Agent. تُعرض استدعاءات الأدوات بواجهة مخصصة: عرض diff موحّد بالأحمر/الأخضر لـ Edit/Write، وكتل طرفية أحادية المسافة بخلفية داكنة لـ Bash، وكود بأرقام أسطر لـ Read/Grep، وشريط جانبي لشجرة الملفات يجمع كل الملفات المعدَّلة حسب نوع العملية. تُطوى المخرجات الطويلة تلقائيًا.
نعم. يوفّر Potato عرض Web Agent مع طبقات SVG لعلامات النقر، ومربعات الإحاطة، ومسارات الفأرة، ومؤشرات التمرير. وضعان: Review Mode للتنقل بأسلوب الشريط الفيلمي عبر لقطات شاشة مسجّلة مسبقًا، وCreation Mode للتصفح الحي القائم على iframe مع تسجيل تلقائي للتفاعلات. تأتي معه محوّلات آثار لصيغ WebArena وMind2Web وAnthropic Computer Use.
نعم. يربط وضع Live Agent نموذج LLM رؤيوي (Anthropic Claude عبر Playwright) بمتصفح بلا واجهة. يلتقط الوكيل لقطات الشاشة، ويخطط LLM للإجراءات، ويبث Potato الجلسة إلى المعلِّق عبر Server-Sent Events. يمكن للمعلِّقين الإيقاف المؤقت أو إرسال تعليمات أو الاستحواذ على التحكم اليدوي أثناء الجلسة. يُكوَّن عبر نوع العرض `live_agent`.
نعم. يدعم وضع وكيل البرمجة نقاط حفظ/تراجع في أي خطوة، والتفرّع/إعادة التشغيل لاستكشاف مسارات بديلة. مفيد للتقييم المضاد للواقع، ومقارنات A/B بين قرارات الوكلاء، والتقاط بيانات تدريب عالية الجودة عبر تحسين تشغيل الوكيل بشكل تدريجي من قِبل المعلِّقين.
نعم. يعرض مخطّط trajectory_eval (المستند إلى TRAIL وAgentRewardBench) كل خطوة على هيئة بطاقة. يضع المعلِّقون علامة على الصحة، ويصنّفون أنواع الخطأ من تصنيف قابل للتهيئة مع أنواع فرعية (الاستدلال، التنفيذ، السلامة، إلخ)، ويعيّنون شدة بنقاط مرجّحة، ويكتبون مبررات لكل خطوة. يجمع مقياس جودة محسوب تلقائيًا عقوبات الشدة عبر كامل المسار.
نعم. يشحن Potato مخطّطات process reward وcode review لتقييم وكلاء البرمجة على مستوى الخطوة. يُصدَّر كلا نوعَي التعليق مباشرة إلى صيغتَي PRM وDPO للتدريب اللاحق RLHF. راجع المشروع المثالي coding-agent-evaluation.
نعم. الشريط الجانبي LLM Chat هو لوحة مساعد ذكاء اصطناعي قابلة للطي تدعم المحادثة متعددة الأدوار. يستقبل وصف المهمة، ومجموعة التسميات، ونص العيّنة الحالية بوصفها سياقًا. دعم محادثة متعددة الأدوار محلي لـ OpenAI وAnthropic وOllama. تُسجَّل كل المحادثات بوصفها بيانات سلوكية لتحليل تعاون المعلِّق مع LLM لاحقًا.
Yes. Potato converts LangChain/LangSmith traces automatically.
نعم. ثبّت `pip install potato-annotation[langchain]` واربط `PotatoCallbackHandler` بسلسلتك. يتتبع علاقات الأبوة والبنوة بين عمليات chain/LLM/tool ويرسل حمولات متوافقة مع LangSmith إلى Potato عند اكتمال السلسلة الجذرية. مع مستقبل webhook، يمكنك ضخ آثار وكلاء حية إلى طوابير التعليق بلا تصدير يدوي.
ثلاث عشرة صيغة موزعة على ثلاث فئات. **أُطر العمل**: LangChain وLangFuse وOpenAI وAnthropic وMCP (Model Context Protocol) وOpenTelemetry وATIF. **وكلاء الويب**: WebArena وآثار ويب خام. **وكلاء البرمجة**: Claude Code وAider وSWE-Agent. إضافةً إلى مسار ضخّ JSONL عام مع مخطط `structured_turns` لأي صيغة مخصّصة. القائمة الكاملة على /integrations.
نعم. يمكن لمشروع وكيل برمجة أن يُكدّس trajectory_eval (أخطاء لكل خطوة)، وتعليق span (إبراز الهلوسات في استدلال الوكيل)، ومقارنة pairwise (أيّ وكيل أفضل)، وتقييمات Likert (الجودة الإجمالية) على الأثر نفسه. تجعل بنية Potato متعددة المخطّطات المعلِّقين يرون كل المخطّطات في واجهة واحدة لنفس الأثر.
No. The live agent supports Ollama for fully local inference with no API key.
Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.
Use the generic ReAct converter or the webhook API to send traces in any JSON format.
Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.
Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.
لا تزال لديك أسئلة؟
مجتمعنا هنا للمساعدة. انضم إلى Discord للدعم الفوري أو تصفّح التوثيق للأدلة التفصيلية.