ما المقصود بتصنيف النصوص؟

المؤلفون

Cole Stryker

Staff Editor, AI Models

IBM Think

ما المقصود بتصنيف النصوص؟

تصنيف النصوص هو مهمة تعلم آلي تتضمن تعيين تصنيفات محددة مسبقًا للبيانات النصية من أجل تصنيفها تلقائيًا إلى مجموعات. نظرًا لأن الشركات والمنصات تتعامل مع أحجام متزايدة باستمرار من النصوص غير المنظمة، فإن تصنيف النصوص يوفر طريقة قوية لتنظيم البيانات النصية وتفسيرها والتصرف فيها على نطاق واسع.

تُنتج المؤسسات اليوم كمًا هائلًا من البيانات النصية عبر المواقع الإلكترونية والتطبيقات والشبكات الأخرى في شكل تقييمات العملاء ومنشورات وسائل التواصل الاجتماعي والوثائق القانونية والبريد الإلكتروني وغيرها. هناك رؤى مخفية في هذه البيانات يمكن أن تساعد المؤسسة على اتخاذ قرارات أفضل. وتصنيف النصوص هو الخطوة الأولى في العملية.

يمكن توجيه تذكرة الدعم المصنَّفة على أنها "عاجلة" إلى سير عمل ذي أولوية. ويمكن أرشفة البريد الإلكتروني المصنَّف على أنه "رسائل غير مرغوب فيها" تلقائيًا. يمكن لتقييم العميل المصنَّف على أنه "إيجابي" أن يساهم في إعداد تقرير عن مشاعر العملاء تجاه منتج جديد. ويمكن تجميع البيانات المصنَّفة وعرضها بصريًا لاكتشاف التوجهات والأنماط التي قد تظل مخفية بخلاف ذلك.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

كيفية عمل تصنيف النصوص

يُعَد تصنيف النصوص مهمة أساسية في معالجة اللغة الطبيعية (NLP)، ويتم استخدامه في مجموعة واسعة من التطبيقات. مصنِّف النصوص هو نموذج تعلُّم آلي يحل مشكلات التصنيف المختلفة، مثل تصنيف النصوص حسب الموضوع أو الشعور أو القصد. وفيما يلي شرح لطريقة عمله:

تصنيف النصوص الخاضع للإشراف

عادةً ما تُستخدَم النماذج الخاضعة للإشراف لإجراء تصنيف النصوص. الخطوة الأولى هي جمع مجموعة كبيرة من عينات النصوص. يمكن أن تشمل هذه العينات الرسائل الإلكترونية والمنشورات على وسائل التواصل الاجتماعي وتقييمات العملاء والمستندات.

يضع المشرفون البشر تصنيفًا لكل قطعة نصية. على سبيل المثال، "رسائل غير مرغوب فيها" أو "ليست رسائل غير مرغوب فيها"، أو "إيجابي" مقابل "سلبي" في المشاعر. تشكِّل مجموعة بيانات التدريب المصنَّفة هذه الأساس لتدريب نموذج التعلم الآلي. عادةً، كلما زادت كمية البيانات، زادت دقة النتائج.

تعمل المعالجة المسبقة للنصوص على تحويل النص إلى صيغة موحَّدة يمكن للآلة قراءتها. لا يمكن للمصنِّفات العمل إلا مع النصوص التي تم تحويلها إلى تمثيلات عددية، غالبًا باستخدام تضمينات الكلمات أو بنى الترميز المتقدمة التي تلتقط المعنى الدلالي للغة.

تعمل المَعلمات الفائقة على تكوين متغيرات مثل عدد طبقات الشبكات العصبية، أو عدد الخلايا العصبية لكل طبقة، أو استخدام دالة التنشيط. يتم اختيار هذه المَعلمات الفائقة قبل بدء التدريب.

ثم يتم إدخال البيانات في خوارزمية تصنيف، والتي تتعلم ربط الأنماط في البيانات بالتصنيفات المرتبطة بها.

تتضمن خوارزميات تصنيف النصوص ما يلي:

يتم اختبار النموذج المدرَّب على مجموعة بيانات منفصلة للتقييم، سواء أكانت للتحقق أم للاختبار، لقياس أداء النموذج باستخدام مقاييس مثل الدقة والاستدعاء والتغطية ودرجة F1 ويتم تقييمه مقارنةً بالمعايير المعتمدة.

يمكن دمج نموذج تصنيف النصوص عالي الأداء في أنظمة الإنتاج ليصنِّف النصوص الواردة في الوقت الفعلي.

يمكن للنماذج المتقدمة تحسين أدائها مع مرور الوقت من خلال دمج بيانات جديدة وإعادة التدريب. أما النماذج اللغوية المدرَّبة مسبقًا مثل BERT فقد اكتسبت بالفعل فهمًا عميقًا للغة، ويمكن تعديلها بدقة لأداء مهام تصنيف محددة باستخدام بيانات قليلة نسبيًا. يؤدي الضبط الدقيق إلى تقليل وقت التدريب وتعزيز الأداء، وخاصةً للفئات المعقدة أو ذات الفروق الدقيقة.

تصنيف النصوص غير الخاضع للإشراف

رغم أن الأساليب الخاضعة للإشراف أكثر شيوعًا، فإنه يمكن تدريب النماذج دون بيانات مصنَّفة باستخدام التعلم غير الخاضع للإشراف. فبدلًا من إخبار النموذج بالفئة الصحيحة لكل نص، يحاول النموذج اكتشاف البنية أو الأنماط في البيانات بنفسه. يتناقض هذا مع تصنيف النصوص الخاضع للإشراف، حيث يتم تصنيف كل مثال تدريبي بتصنيف محدد مسبقًا. والأساليب الخاضعة للإشراف أكثر شيوعًا.

على سبيل المثال، باستخدام تقنية تُعرَف باسم التجميع، يعمل النموذج على تجميع أجزاء متشابهة من النص في مجموعات بناءً على الميزات المشتركة، والتي يمكن تفسيرها بعد ذلك على أنها فئة.

أكاديمية الذكاء الاصطناعي

تسخير الذكاء الاصطناعي في العمل لخدمة العملاء

اكتشف كيف يمكن للذكاء الاصطناعي التوليدي إدخال السرور على العملاء من خلال تقديم تجربة أكثر سلاسة وزيادة إنتاجية المؤسسة في هذه المجالات الثلاثة الرئيسية: الخدمة الذاتية، والوكلاء البشريين، وعمليات مركز الاتصال.

حالات استخدام تصنيف النصوص

فيما يلي بعض مهام معالجة اللغة الطبيعية الشائعة التي تتضمن التصنيف:

  • اكتشاف الرسائل غير المرغوب فيها
  • تحليل المشاعر
  • تصنيف الموضوعات
  • كشف النوايا
  • الكشف عن السُمّية والإساءة

كشف الرسائل غير المرغوب فيها

تعمل أنظمة كشف الرسائل غير المرغوب فيها على تحليل الرسائل الواردة وتصنيفها على أنها "غير مرغوب فيها" أو "مرغوب فيها". وتستخدم هذه الأنظمة مزيجًا من القواعد والأنماط الإحصائية وتقنيات التعلم الآلي لاكتشاف رسائل التصيّد والرسائل التسويقية الجماعية من مرسلين مجهولين والروابط المشبوهة والبرمجيات الضارة والمزيد.

تحليل المشاعر

تحليل المشاعر هو عملية تحليل كميات كبيرة من النصوص لتحديد مشاعرها. يساعد تحليل المشاعر المؤسسات على تحديد إذا ما كان لدى الأشخاص ارتباطات إيجابية أو سلبية في نقاط الاتصال الرقمية.

يمكن لخوارزمية التعلم الآلي قياس المشاعر باستخدام الكلمات التي تظهر في النص بالإضافة إلى ترتيب ظهورها. يستخدم المطورون خوارزميات تحليل المشاعر لتعليم البرامج كيفية التعرُّف على المشاعر في النص على غرار طريقة البشر.

تصنيف الموضوعات

الهدف من تصنيف الموضوعات هو تعيين فئات محددة مسبقًا لجزء من النص. يُستخدم عادةً في إدارة المحتوى والتجميع والبحث الأكاديمي وتحليل التعليقات لتنظيم كميات كبيرة من النصوص غير المنظمة.

كشف النوايا

بينما يُخبرك تصنيف الموضوعات بمضمون الرسالة، يوضِّح لك كشف النوايا ما الذي يحاول المستخدم القيام به. يفيد كشف النوايا في أتمتة المحادثات ومهام التوجيه في خدمة العملاء أو التجارة الإلكترونية. ودون ذلك، ستكافح الأنظمة لتقديم مساعدة ذات مغزى.

الكشف عن السُمّية والإساءة

يُعَد الكشف عن السُمّية والإساءة مهمة تصنيف نصوص تهدف إلى تحديد المحتوى الضار أو المسيء أو الهجومي على الإنترنت. قد يتضمن ذلك كلمات تحمل الكراهية أو التهديد أو المضايقة أو الألفاظ البذيئة أو أي تعبيرات غير لائقة أخرى. تستخدم منصات التواصل الاجتماعي الكبيرة خوارزميات التصنيف لمساعدة موظفي الدعم لديها على إدارة قواعد المستخدمين العالمية الضخمة.

أطر العمل والأدوات وواجهات برمجة التطبيقات

هناك العديد من الأدوات مفتوحة المصدر المتاحة لإنشاء مصنِّفات النصوص. توفِّر أطر العمل مثل TensorFlow وPyTorch عناصر لإنشاء النماذج وتدريبها. على سبيل المثال، قد يستخدم المصنِّف المستند إلى TensorFlow واجهة برمجة تطبيقات Keras مع وحدات مثل validation_data وoptimizer وloss لتدريب نموذج على البيانات المصنَّفة. تُستخدم PyTorch، وهي مكتبة تعلُّم آلي قائمة على Python ومعروفة بمرونتها على نطاق واسع، مع أدوات مثل DataLoader وnn.Module.

بينما تستخدم المصنِّفات التقليدية تصنيفات ثابتة، أدَّى ظهور النماذج اللغوية الكبيرة (LLMs) إلى إدخال أساليب توليدية للتصنيف. يمكن توجيه النماذج إلى إنتاج كلٍّ من التصنيفات والتفسيرات بلغة طبيعية. على سبيل المثال، يمكن للشخص أن يطلب من النموذج اللغوي الكبير جملة ما ويطلب منه تصنيف المشاعر، أو توليد تبرير أو اقتراح فئات مماثلة - كل ذلك دون تدريب إضافي.

مع تسريع وحدة معالجة الرسومات، يتم تقليل أوقات التدريب بشكل كبير، خاصةً بالنسبة لمجموعات البيانات الكبيرة أو بنى التعلم العميق المعقدة. غالبًا ما يشارك الباحثون والمطورون مسارات التدريب والنماذج الخاصة بهم على GitHub.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا