ما هو تصنيف البيانات؟

ما هو تصنيف البيانات؟

تصنيف البيانات، أو شرح البيانات، جزء من مرحلة المعالجة المسبقة عند تطوير نموذج التعلم الآلي.

تتضمن عملية تصنيف البيانات تحديد البيانات الخام غير المنسقة، مثل الصور أو ملفات النصوص أو مقاطع الفيديو، وتعيين تصنيف واحد أو أكثر لتحديد سياقها لنماذج التعلم الآلي. حيث تساعد هذه العلامات النماذج على تفسير البيانات بشكل صحيح، ما يمكنها من تقديم تنبؤات دقيقة.

تدعم عملية تصنيف البيانات حالات استخدام مختلفة للتعلم الآلي والتعلم العميق، بما في ذلك الرؤية الحاسوبية ومعالجة اللغة الطبيعية (NLP).

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

كيف يعمل تصنيف البيانات؟

تقوم الشركات بدمج البرامج والعمليات ومحللي البيانات لتنظيف البيانات وتنظيمها ووضع العلامات عليها. وتصبح بيانات التدريب هذه بمثابة الأساس لنماذج التعلم الآلي. حيث تسمح هذه العلامات للمحللين بعزل المتغيرات داخل مجموعات البيانات، وهذه العملية بدورها تمكِّن من اختيار المتنبئات المثلى للبيانات لنماذج التعلم الآلي. وتعمل العلامات على تحديد متجهات البيانات المناسبة التي سيتم سحبها لتدريب النموذج؛ إذ يتعلم النموذج كيفية تقديم أفضل التوقعات.

إلى جانب مساعدة الآلة، تتطلب مهام تصنيف البيانات مشاركة "تفاعل الإنسان وتدخله (HITL) ". يستغل التفاعل البشري في الحلقة (HITL) حكم "مُصنِّفي البيانات" البشري في إنشاء نماذج تعلّم الآلة وتدريبها وضبطها الدقيق واختبارها. حيث يساعدون في توجيه عملية تصنيف البيانات عن طريق تغذية مجموعات البيانات النموذجية الأكثر قابلية للتطبيق على المشروع.

البيانات الموسومة مقابل البيانات غير الموسومة

تستخدم أجهزة الكمبيوتر البيانات المصنفة وغير المصنفة لتدريب نماذج التعلم الآلي، ولكن ما هو الفرق ؟

  • تستخدم البيانات المصنفة في التعلم الخاضع للإشراف، بينما تستخدم البيانات غير المصنفة في التعلم غير الخاضع للإشراف.

  • البيانات المصنفة يصعب الحصول عليها وتخزينها (أي أنها تستغرق وقتًا طويلًا وتكون مكلفة)، في حين أن البيانات غير المصنفة أسهل في الحصول عليها وتخزينها.

  • يمكن استخدام البيانات المصنفة لتحديد رؤى قابلة للتنفيذ (على سبيل المثال، مهام التنبؤ)، في حين أن البيانات غير المصنفة أكثر محدودية في فائدتها. وتساعد طرق التعلم غير الخاضعة للإشراف في اكتشاف مجموعات جديدة من البيانات، ما يسمح بتصنيفات جديدة عند وضع العلامات.

يمكن لأجهزة الكمبيوتر أيضًا استخدام البيانات المجمَّعة للتعلم شبه الخاضع للإشراف، ما يقلل الحاجة إلى البيانات المصنفة يدويًا مع توفير مجموعة كبيرة من البيانات الموضحة.

أكاديمية الذكاء الاصطناعي

كن خبيرًا في الذكاء الاصطناعي

اكتسب المعرفة لتحديد أولويات استثمارات الذكاء الاصطناعي التي تدفع نمو الأعمال. ابدأ مع أكاديمية الذكاء الاصطناعي المجانية اليوم وتولَّ زمام المبادرة لتعزيز مستقبل الذكاء الاصطناعي في مؤسستك.

مناهج تصنيف البيانات

يعد تصنيف البيانات خطوة مهمة في تطوير نموذج التعلم الآلي عالي الأداء. ورغم أن وضع العلامات يبدو بسيطًا، إلا إنه ليس من السهل بالضرورة تنفيذه. نتيجة لذلك، يتعين على الشركات أن تأخذ في الاعتبار عوامل وأساليب متعددة لتحديد أفضل نهج للتصنيف. ولأن كل طريقة لتصنيف البيانات لها إيجابياتها وسلبياتها، فمن المستحسن إجراء تقييم مفصل لتعقيد المهمة، بالإضافة إلى حجم ونطاق ومدة المشروع.

فيما يلي بعض المسارات لوضع علامات على بياناتك:

  • وضع العلامات الداخلية: يؤدي استخدام خبراء علم البيانات الداخليين إلى تبسيط التتبع وتوفير دقة أكبر وزيادة الجودة. ومع ذلك، فإن هذا النهج يتطلب عادة المزيد من الوقت ويفضل الشركات الكبيرة ذات الموارد الواسعة.

  • التسمية الاصطناعية: يعمل هذا النهج على توليد بيانات جديدة للمشروع من مجموعات البيانات الموجودة مسبقًا، ما يعزز جودة البيانات وكفاءة الوقت. ومع ذلك، تتطلب عملية وضع العلامات الاصطناعية قوة حسابية هائلة، وهو ما قد يؤدي إلى زيادة الأسعار.

  • وضع علامات ووسوم برمجية: تستخدم عملية التوسيم المؤتمتة للبيانات هذه البرامج النصية لتقليل استهلاك الوقت والحاجة إلى التعليق التوضيحي البشري. على الرغم من ذلك، فإن احتمال حدوث مشاكل فنية يتطلب أن يظل التفاعل البشري وتدخله جزءًا من عملية ضمان الجودة (QA).

  • الاستعانة بمصادر خارجية: قد يكون هذا النهج خيارًا مثاليًا للمشاريع المؤقتة رفيعة المستوى، لكن تطوير وإدارة سير عمل موجَّه نحو العمل الحر قد يستغرق وقتًا طويلًا أيضًا. ورغم أن منصات العمل الحر توفر معلومات شاملة عن المرشحين لتسهيل عملية التحقق، فإن توظيف فرق تصنيف البيانات المُدارة يوفر موظفين تم فحصهم مسبقًا وأدوات تصنيف البيانات المعدة مسبقًا.

  • التعهيد الجماعي: هذا النهج أسرع وأكثر فاعلية من حيث التكلفة نظرًا لقدرته على تنفيذ المهام الصغيرة والتوزيع على شبكة الإنترنت. ومع ذلك، فإن جودة العمال وضمان الجودة وإدارة المشاريع تختلف عبر منصات التمويل الجماعي. أحد أشهر الأمثلة على تصنيف البيانات الجماعية هو مشروع reCAPTCHA. حيث كان هذا المشروع ذا شقين؛ إذ تحكم في البوتات مع التحسين المتزامن لترميز/تسمية البيانات للصور. على سبيل المثال، سيطلب موجه reCAPTCHA من المستخدم تحديد جميع الصور التي تحتوي على سيارة لإثبات أنها بشرية. ويمكن للبرنامج بعد ذلك التحقق من دقته عن طريق مقارنة النتائج مع نتائج المستخدمين الآخرين. وقد وفرت مدخلات هؤلاء المستخدمين قاعدة بيانات من العلامات لمجموعة من الصور.

فوائد وتحديات تصنيف البيانات

تتمثل المفاضلة العامة عند تصنيف البيانات في أنه رغم أنه يمكن أن يؤدي إلى تسريع عملية توسع الأعمال، إلا إنه غالبًا ما يأتي بتكلفة كبيرة. حيث تؤدي البيانات الأكثر دقة إلى توقعات أفضل للنماذج، ما يجعل تصنيف البيانات استثمارًا قيمًا ولكنه مكلف. ورغم تكلفتها العالية، فإن الشركات تجدها جديرة بالاهتمام بسبب الدقة المعززة التي توفرها.

نظرًا لأن شرح مجموعة البيانات يضيف المزيد من السياق إلى مجموعات البيانات، فإنه يحسن الأداء من تحليل البيانات الاستكشافي، التعلم الآلي، وتطبيقات الذكاء  الاصطناعي. على سبيل المثال، تساهم البيانات المصنفة في الحصول على نتائج بحث أكثر صلة على منصات محركات البحث وتقديم توصيات أفضل للمنتجات في التجارة الإلكترونية. دعونا الآن نستكشف الفوائد والتحديات الرئيسية الأخرى بمزيد من التفصيل.

الفوائد

توفر تسمية البيانات للمستخدمين وفرق العمل والشركات سياقًا وجودة وسهولة استخدام أكبر. وبشكل أكثر تحديدًا، يمكنك أن تتوقع:

  • تنبؤات أكثر دقة: وضع العلامات الدقيقة للبيانات يضمن توكيد الجودة بشكل أفضل في خوارزميات التعلم الآلي، ما يسمح للنموذج بالتدريب وإنتاج المخرجات المتوقعة. وإلا، كما يقول المثل القديم، "مدخلات رديئة، مخرجات رديئة". توفر البيانات المصنفة بشكل صحيح "الحقيقة الأساسية" (هذه هي الطريقة التي تعكس بها التسميات سيناريوهات "العالم الحقيقي") لاختبار النماذج اللاحقة وتكرارها.

  • سهولة استخدام البيانات بشكل أفضل: يؤدي تصنيف البيانات أيضًا إلى تحسين قابلية استخدام متغيرات البيانات داخل النموذج. على سبيل المثال، يمكنك إعادة تصنيف متغير فئوي كمتغير ثنائي لجعله أكثر قابلية للاستخدام بالنسبة للنموذج. وتجميع البيانات بهذه الطريقة يؤدي إلى تحسين النموذج عن طريق تقليل عدد متغيرات النموذج أو تمكين تضمين متغيرات التحكم. وسواء كنت تستخدم البيانات لبناء نماذج رؤية الكمبيوتر (أي وضع مربعات محيطة حول الكائنات) أو نماذج معالجة اللغة الطبيعية (أي تصنيف النص للعواطف الاجتماعية)، فإن ضمان جودة البيانات هو أولوية قصوى.

التحديات

يأتي تصنيف البيانات مع مجموعة خاصة به من التحديات. وعلى وجه الخصوص، بعض التحديات الأكثر شيوعا هي:

  • مكلفة وتستغرق وقتًا طويلًا: في حين أن وضع العلامات على البيانات أمر حساس لنماذج التعلم الآلي، إلا إنه قد يكون مكلفًا من منظور الموارد والوقت. فإذا اتبعت شركة ما نهجًا أكثر آلية، فلا تزال فرق العمل الهندسية بحاجة إلى إعداد مسارات البيانات قبل معالجة البيانات، وعادةً ما يكون وضع العلامات اليدوية مكلفًا ويستغرق وقتًا طويلًا.

  • عرضة للخطأ البشري: تخضع أساليب وضع العلامات هذه أيضًا للأخطاء البشرية (على سبيل المثال، أخطاء البرمجة، وأخطاء الإدخال اليدوي)، ما قد يقلل من جودة البيانات. وتؤدي هذه العملية، بدورها، إلى معالجة البيانات والنمذجة غير الدقيقة. تُعدُّ عمليات ضمان الجودة ضرورية للحفاظ على جودة البيانات.

أفضل ممارسات تصنيف البيانات

بغض النظر عن النهج المتبع، فإن أفضل الممارسات التالية تعمل على تحسين دقة وكفاءة تصنيف البيانات:

  • تعمل واجهات المهام البديهية والمبسطة على تقليل الحِمل المعرفي وتبديل السياق لأدوات العلامات البشرية.

  • التوافق: يقيس معدل الاتفاق بين عدة مصنفين (بشريين أو آليين). يتم حساب درجة الإجماع بقسمة مجموع التسميات المتفق عليها على إجمالي عدد التسميات لكل أصل.

  • تدقيق التصنيف/التسمية: يتحقق من دقة التصنيفات (أو التسميات) ويقوم بتحديثها حسب الحاجة.

  • نقل التعلّم: يأخذ نموذجًا أو أكثر من النماذج التي تم تدريبها مسبقًا من مجموعة بيانات واحدة ويطبقها على مجموعة بيانات أخرى. وقد تتضمن هذه العملية التعلم متعدد المهام، حيث يتم تعلم مهام متعددة بالتزامن.

  • التعلّم النشط: فئة من خوارزميات التعلم الآلي ومجموعة فرعية من التعلّم شبه الخاضع للإشراف تساعد البشر على تحديد مجموعة البيانات الأكثر ملاءمة. تتضمن مناهج التعلم النشط ما يلي:

    • توليف استعلام العضوية: ينشئ مثالًا اصطناعيًا (أو توليفيًا) ويطلب تصنيفًا/تسمية له.

    • المعاينة المعتمدة على المجمّع: ترتب جميع الأمثلة غير المصنفة وفقًا لقياس المعلوماتية وتختار أفضل الاستعلامات لتصنيفها/وسمها.

    • المعاينة الانتقائية المعتمدة على التدفق: تختار الأمثلة غير المصنفة (غير الموسومة) واحدًا تلو الآخر، وتقوم بتصنيفها أو تجاهلها بناءً على قيمتها المعلوماتية أو مدى عدم اليقين بشأنها.

حالات استخدام تصنيف البيانات

رغم أن تصنيف البيانات يعزز الدقة والجودة وسهولة الاستخدام في سياقات متعددة عبر الصناعات، فإن حالات الاستخدام الأكثر بروزًا تشمل:

  • رؤية الكمبيوتر: مجال الذكاء الاصطناعي الذي يستخدم بيانات التدريب لبناء نموذج رؤية كمبيوترية يتيح تقسيم الصور وأتمتة الفئات، ويحدد النقاط الرئيسية في الصورة ويكتشف موقع الكائنات. تقدم شركة IBM منصة للرؤية الحاسوبية تسمى Maximo Visual Inspection، والتي تُمكِّن خبراء المجال من تصنيف وتدريب نماذج الرؤية بالتعلم العميق. حيث يمكن نشر هذه النماذج في السحابة، وعلى الأجهزة الطرفية، وفي مراكز البيانات المحلية. وتُستخدم الرؤية الحاسوبية في العديد من الصناعات، بدءًا من قطاع الطاقة والمرافق إلى التصنيع والسيارات. ومن المتوقع أن تصل القيمة السوقية لهذا المجال الصاعد إلى 48.6 مليار دولار أميركي بحلول عام 2022.

  • معالجة اللغة الطبيعية (NLP): فرع من فروع الذكاء الاصطناعي يجمع بين اللغويات الحاسوبية والنماذج الإحصائية والتعلم الآلي والتعلم العميق لتحديد الأجزاء المهمة من النص ووضع علامات عليها. حيث تعمل هذه الأقسام المميزة على إنشاء بيانات تدريبية لتحليل المشاعر والتعرف على أسماء الكيانات والتعرف الضوئي على الأحرف. يتم استخدام معالجة اللغة الطبيعية بشكل متزايد في حلول المؤسسات مثل اكتشاف البريد العشوائي، والترجمة الآلية، والتعرف على الكلام، وتلخيص النصوص، والمساعدين الافتراضيين والروبوتات الدردشة، وأنظمة تحديد المواقع العالمية التي تعمل بالصوت. وقد أدى هذا التقدم إلى جعل معالجة اللغة الطبيعية (NLP) عنصرًا أساسيًا في تطور العمليات التجارية المهمة.
حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا