Skip to content

مفاهيم وسم البيانات

اعثر على إجابات للأسئلة الشائعة حول Potato. لم تجد ما تبحث عنه؟ انضم إلى Discord أو تصفّح التوثيق.

مفاهيم وسم البيانات

وسم البيانات هو عملية إضافة تسميات إلى البيانات الخام مثل النصوص أو الصور أو الصوت أو الفيديو أو مخرجات النماذج، بحيث يمكن استخدام هذه البيانات لتدريب نماذج التعلم الآلي أو تقييمها. وقد تكون التسمية فئة، أو مقطعًا مظللًا، أو تقييمًا، أو مقارنة. ويتيح لك Potato إعداد أي من أنواع المهام هذه باستخدام تهيئة YAML قصيرة.

يقيس الاتفاق بين الواسمين عدد المرات التي يمنح فيها واسمون مستقلون التسمية نفسها للعنصر نفسه. وهو الدليل المعياري على أن المهمة محددة جيدًا وأن التسميات موثوقة. ومن المقاييس الشائعة كابا لـ Cohen، وكابا لـ Fleiss، وألفا لـ Krippendorff، وهي مقاييس تصحح للاتفاق الذي قد يحدث بالصدفة. ويُظهر Potato قيمة ألفا لـ Krippendorff في لوحة تحكم المسؤول الخاصة به.

يعتمد ذلك على بياناتك وأهدافك، لذا لا توجد إجابة واحدة. وبالنسبة للأعمال التي تشمل النصوص والصور والصوت وتقييم وكلاء الذكاء الاصطناعي، يُعد Potato خيارًا مجانيًا مفتوح المصدر قويًا يضم أكثر من 30 نوعًا من المهام وإعدادًا بصيغة YAML دون الحاجة إلى برمجة. كما أن Label Studio وDoccano وbrat وArgilla خيارات أخرى مفتوحة المصدر بنقاط قوة مختلفة.

ابدأ بتحديد المهمة ومجموعة التسميات، ثم اكتب إرشادات واضحة واجعل عدة واسمين يوسمون عناصر متداخلة. قِس مدى الاتفاق، وحُلَّ الخلافات، وصدِّر النتيجة بصيغة يمكن لخط إنتاج التدريب لديك قراءتها. ويغطي Potato سير العمل هذا بأكمله ويصدِّر إلى JSON وCoNLL وHugging Face وspaCy وCOCO/YOLO.

غالبًا ما يمكن للمهام الواضحة والموضوعية الاكتفاء بواسم واحد، مع عينة متداخلة صغيرة لإجراء فحوص الجودة. أما المهام الذاتية إلى حد معتدل فتستخدم عادةً ثلاثة واسمين تُحسم بالتصويت بالأغلبية. وتستخدم المهام الذاتية للغاية خمسة واسمين أو أكثر، وتحتفظ أحيانًا بكامل نطاق الآراء بدلًا من اختزالها في إجابة واحدة. وتتراجع الفائدة بسرعة بعد ثلاثة واسمين.

يختار التعلم النشط العناصر التي ستُوسم تاليًا بحيث يبلغ النموذج دقة مستهدفة بعدد تسميات أقل مما تتطلبه العينة العشوائية. ويحدد النموذج العناصر التي يجدها الأكثر إفادة، وهي غالبًا تلك التي يكون أقل يقينًا بشأنها، فيقوم شخص بوسمها. ويدعم Potato استراتيجيات عدم اليقين والتنوع وBADGE وBALD.

يسند التصنيف تسمية واحدة أو أكثر إلى العنصر بأكمله، مثل وسم مراجعة بأنها إيجابية أو سلبية. أما وسم المقاطع فيحدد منطقة داخل عنصر، مثل تظليل اسم في جملة أو حدث على موجة صوتية. ويُعد التعرف على الكيانات المسماة ووسم الأخطاء من مهام المقاطع. ويدعم Potato كليهما، ويمكنك الجمع بينهما على شاشة واحدة.

اجعل الأشخاص يحكمون على المخرجات: بتقييمها على مقياس، أو بمقارنة اثنتين جنبًا إلى جنب، أو بتسجيل درجاتها مقابل معيار تقييم، أو بوسم أخطاء محددة باستخدام المقاطع. وبالنسبة للوكلاء الذين ينفذون خطوات متعددة، يمكنك أيضًا الحكم على كل خطوة من المسار. ويوفر Potato كل ذلك ويمكنه قراءة مسارات الوكلاء من صيغ مثل OpenAI وAnthropic وReAct.

لا تزال لديك أسئلة؟

مجتمعنا هنا للمساعدة. انضم إلى Discord للدعم الفوري أو تصفّح التوثيق للأدلة التفصيلية.