توصيف النصوص

دليل كامل لتوصيف النصوص، يغطي التصنيف ووسم الفئات المتعددة والتقييم والنص الحر، وكيفية بناء كل نوع من مهام النصوص في Potato بإعدادات جاهزة للنسخ.

يعني توصيف النصوص وسم اللغة المكتوبة: فرز المستندات في فئات، أو وسم المواضيع في مقال، أو تقييم فقرة من حيث جودتها، أو كتابة تصحيح. وهو أكثر مهام التوصيف شيوعًا في معالجة اللغة الطبيعية، وهو ما صُمِّم Potato من أجله في الأصل. يغطي هذا الدليل مهام النصوص على مستوى المستند بأكمله؛ ولتمييز مناطق داخل النص، انظر توصيف النطاقات.

مهام النصوص في لمحة

تصنيف المستندات: تصنيف واحد للنص بأكمله (تصنيف النص).
وسم الفئات المتعددة: عدة تصنيفات في آنٍ واحد، مثل المواضيع أو تحذيرات المحتوى.
التقييم والدرجات: موضع على مقياس، مثل الجودة أو شدّة المشاعر.
النص الحر: إجابة مكتوبة، أو إعادة صياغة، أو تصحيح.

التصنيف: تصنيف واحد لكل مستند

عماد توصيف النصوص. استخدم radio حين تكون الفئات متعارضة فيما بينها:

yaml

annotation_schemes:
  - annotation_type: radio
    name: sentiment
    description: "What is the overall sentiment of this review?"
    labels: [Positive, Negative, Neutral]
    sequential_key_binding: true

يربط sequential_key_binding التصنيفات بالمفاتيح 1 و2 و3، حتى يُبقي المُعلّقون أيديهم على لوحة المفاتيح. وفي مهمة من آلاف العناصر يكون هذا تسريعًا كبيرًا. انظر تصميم تحليل المشاعر الحي للاطّلاع على مثال عملي.

الفئات المتعددة: عدة وسوم في آنٍ واحد

حين يمكن أن ينطبق أكثر من تصنيف، استخدم multiselect. وحدِّد عدد الاختيارات بما يتوافق مع إرشاداتك:

yaml

annotation_schemes:
  - annotation_type: multiselect
    name: content_warnings
    description: "Select every content warning that applies."
    labels: [Violence, Profanity, Sexual content, Self-harm, None]
    min_selections: 1
    max_selections: 5

تُعدّ مراقبة المحتوى مهمة نصية كلاسيكية متعددة الفئات؛ ويجمع تصميم كشف السُّمّية بين فئة ونطاق مُظلَّل.

تقييم النص على مقياس

لالتقاط الدرجة بدلًا من الفئة، استخدم مقياس ليكرت:

yaml

annotation_schemes:
  - annotation_type: likert
    name: helpfulness
    description: "How helpful is this answer?"
    size: 5
    min_label: "Not helpful"
    max_label: "Very helpful"

انظر مقاييس التقييم للاطّلاع على مزالق تصميم المقاييس، مثل انحياز الموافقة وعدد النقاط التي ينبغي استخدامها.

النص الحر والتصحيحات

في بعض الأحيان يكون أنفع تصنيف هو جملة يكتبها المُعلّق: تبريرًا، أو إعادة صياغة، أو نسخًا. اجمعها مع فئة واعرضها فقط حين تكون ذات صلة:

yaml

annotation_schemes:
  - annotation_type: radio
    name: factuality
    description: "Is the claim supported by the source?"
    labels: [Supported, Contradicted, Not enough info]
  - annotation_type: text
    name: evidence
    description: "Quote the sentence that supports your choice."
    label_requirement:
      required: false

الحصول على تصنيفات نصية متّسقة

النص مُلتبِس، ولذلك يأتي الاتّساق من العملية المحيطة به، لا من الواجهة نفسها:

اكتب إرشادات مُحكَمة تتضمّن خيار "يتعذّر التحديد".
اجعل عدة مُعلّقين يتداخلون على العناصر نفسها.
تابِع اتفاق المُعلّقين وابتّ في مواضع الاختلاف.
سرِّع المهام الكبيرة بـ التوصيف المسبق بالنماذج اللغوية الكبيرة، وتحقّق من الاقتراحات يدويًّا.

توصيف النصوص

مهام النصوص في لمحة

التصنيف: تصنيف واحد لكل مستند

الفئات المتعددة: عدة وسوم في آنٍ واحد

تقييم النص على مقياس

النص الحر والتصحيحات

الحصول على تصنيفات نصية متّسقة

قراءات إضافية