ما المقصود ببيانات التدريب؟

ما المقصود ببيانات التدريب؟

بيانات التدريب هي المعلومات التي يتم استخدامها لتعليم نموذج التعلم الآلي كيفية إجراء تنبؤات أو التعرُّف على الأنماط أو إنشاء محتوى. بعد أن تعالج الخوارزمية كمية هائلة من البيانات، تُعَد "مدرَّبة" وقابلة للاستخدام للعديد من التطبيقات. ولكن دون بيانات التدريب، حتى أكثر الخوارزميات تطورًا لا تكون مفيدة، تمامًا كالطالب الذكي الذي لم يدرس المادة قبل الاختبار.

يبدأ كل التعلم الآلي بمجموعة بيانات أو مجموعة من البيانات. يمكن أن تتكون مجموعة البيانات من جداول بيانات أو لقطات فيديو أو صفحات ويب أو ملفات PDF أو أي نوع آخر من البيانات. بشكل عام، كلما زاد عدد بيانات التدريب التي يتم إدخالها في النموذج، كان أداء النموذج أفضل. ولكن الأمر لا يتعلق فقط بكمية البيانات، فجودة البيانات مهمة للغاية أيضًا.

تتكون بيانات تدريب الذكاء الاصطناعي من ميزات، تُعرَف أيضًا بالسمات، والتي تَصِف البيانات. على سبيل المثال، قد تتضمن مجموعة البيانات الخاصة بقطعة من معدات المصنع درجة الحرارة وسرعة التذبذب ووقت آخر عملية إصلاح. تتم "تغذية" هذه البيانات إلى خوارزمية التعلم الآلي، وهي مجموعة من التعليمات التي تم التعبير عنها من خلال جزء من التعليمات البرمجية التي تعالج بيانات الإدخال من أجل إنشاء المخرجات. تزويد الخوارزمية بالبيانات يعني إدخال بيانات إليها، ثم يتم بعد ذلك معالجتها وتحليلها لإنتاج المخرجات. النموذج الرياضي المدرَّب هو نتيجة هذه العملية. وهذه النماذج هي الأساس لجميع الابتكارات الحديثة تقريبًا في الذكاء الاصطناعي.

بعض النماذج تستخدم معالجة اللغة الطبيعية (NLP)، والتي يمكن استخدامها لتعليم الآلات القراءة والتحدث بلغة الإنسان. تُتيح رؤية الكمبيوتر للنماذج الأخرى تفسير المعلومات المرئية. لكن كل شيء يبدأ ببيانات التدريب.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

أنواع التدريب

تستخدم أنواع مختلفة من خوارزميات التعلم أساليب مختلفة لتدريب البيانات. يستخدم التعلم الخاضع للإشراف البيانات المصنّفة، بينما يستخدم التعلم غير الخاضع للإشراف بيانات غير مصنّفة. ويجمع التعلم شبه الخاضع للإشراف بين الاثنين.

نماذج التدريب للتعلم الخاضع للإشراف

التعلم الخاضع للإشراف هو أسلوب تعلُّم آلي يستخدم مجموعات البيانات المصنّفة لتدريب نماذج الذكاء الاصطناعي لتحديد الأنماط الأساسية عبر نقاط البيانات. تتضمن البيانات المصنّفة ميزات وتصنيفات ومخرجات مقابلة يستخدمها النموذج لفهم العلاقة بين الاثنين.

يوظِّف العديد من الشركات فِرقًا كبيرة من المعلِّقين على البيانات البشريين، الذين قد تساعدهم الأجهزة أحيانًا. غالبًا ما يحتاج هؤلاء المعلِّقون إلى خبرة في المجال لضمان تصنيف البيانات بشكل صحيح. على سبيل المثال، عند تصنيف البيانات القانونية، قد يحتاج المعلِّقون إلى خلفية في القانون. يُطلق أحيانًا على عملية استخدام المعلِّقين البشريين لضمان وضع تصنيفات دقيقة اسم "البشر في الحلقة".

من الأمثلة الكلاسيكية على التعلم الخاضع للإشراف هو اكتشاف الرسائل المزعجة. لتعليم النموذج كيفية التعرُّف على الرسائل المزعجة، يمكن تزويده بمجموعة بيانات تحتوي على آلاف الرسائل الإلكترونية، مُصنّفة يدويًا من قِبل البشر على أنها "مزعجة" أو "ليست مزعجة". سيراجع النموذج الأنماط في الرسائل الإلكترونية، مع ملاحظة تكرار هذه الأنماط. على سبيل المثال، من المرجح أن تكون رسائل البريد الإلكتروني التي تحتوي على كلمة "مجانية" في سطر الموضوع غير مرغوب فيها. سيحسب النموذج الاحتمال الإحصائي بأن كلمة "مجاني" في سطر الموضوع تتوافق مع تصنيف "رسالة مزعجة". بعد ذلك، عند تزويد النموذج برسالة جديدة غير مصنفة، يمكنه تطبيق هذا التحليل، إلى جانب تحليلات أخرى، لتحديد إذا ما كانت الرسالة مزعجة أم لا.

يُعرَف هذا النوع من التعلم الآلي باسم "خاضع للإشراف" لأنه ينطوي على إشراف بشري لتصنيف كل تلك البيانات.

نماذج التدريب للتعلم غير الخاضع للإشراف

تعمل نماذج التعلم غير الخاضع للإشراف من تلقاء نفسها لاكتشاف الهيكل الكامن في البيانات غير المصنفة. بينما يكون التعلم الخاضع للإشراف مفيدًا لربط المدخلات بالمخرجات، فإن التعلم غير الخاضع للإشراف أفضل لاكتشاف الأنماط والبنى والعلاقات داخل البيانات نفسها، دون أي توجيه بشأن ما يجب البحث عنه.

على سبيل المثال، تخيَّل أن مُعلِنًا يريد تقسيم العملاء إلى شرائح مميزة بناءً على سلوك الشراء دون معرفة الفئات مسبقًا. قد تتضمن مجموعة البيانات غير المصنّفة ميزات مثل تكرار الشراء ومتوسط قيمة الطلب وأنواع المنتجات المشتراة والفترة منذ آخر عملية شراء، لكنها لا تحتوي على عمود يحدِّد "نوع العميل". هذا ما يحاول النموذج اكتشافه. يمكن استخدام خوارزمية التجميع لتحديد ثلاث مجموعات:

  1. المشترون أصحاب الإنفاق العالي والمتكرّر
     

  2. المشترون الذين يشترون أحيانًا خلال الخصومات
     

  3. العملاء الجُدُد أو الذين يشترون لمرة واحدة

تعلَّم النموذج الأنماط من تلقاء نفسه وكوَّن هذه المجموعات مباشرةً من مجموعة بيانات التدريب.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

إعداد بيانات التدريب

البيانات في كل مكان حولنا. يولِّد سكان العالم كميات هائلة من البيانات في كل ثانية من اليوم. لكن البيانات غير المنسقة عادةً لا تكون مفيدة لتدريب النموذج. لِذا يُعَد ضمان الجودة أمرًا بالغ الأهمية. أولًا، تجب معالجة البيانات مسبقًا من خلال مسار بيانات متعدد الخطوات. يمكن أن تكون هذه عملية معقدة بالنسبة لعلماء البيانات، وتشكِّل جزءًا كبيرًا من نطاق مشروع التعلم الآلي، وتتطلب أدوات وبنية أساسية متطورة لعلم البيانات. يمكن أن تؤدي البيانات ذات الجودة الرديئة إلى حدوث ضوضاء وتحيّز، ما يمنع نماذج التعلم الآلي من إجراء تنبؤات دقيقة، ولكن بيانات التدريب عالية الجودة تسمح للنماذج بإنتاج نتائج أكثر موثوقية عبر حالات استخدام لا حصر لها، بدءًا من الأتمتة إلى الترجمة ووصولًا إلى صناعة القرارات القائمة على البيانات.

جمع البيانات

يجب جمع البيانات أولًا. بالنسبة إلى أنظمة الذكاء الاصطناعي مثل المركبات ذاتية القيادة أو المنازل الذكية، قد يتم جمع البيانات باستخدام أجهزة الاستشعار أو أجهزة إنترنت الأشياء (IOT). غالبًا ما توفِّر الحكومة والمؤسسات البحثية والأعمال مجموعات بيانات عامة. يستخدم المُعلنون النقرات وعمليات إرسال النماذج والبيانات السلوكية من المستخدمين.

تنظيف البيانات وتحويلها

غالبًا ما تحتوي البيانات غير المنسقة على قيم مفقودة وتكرارات وأخطاء أخرى. بمجرد جمع البيانات، يجب تنظيفها لتصحيح هذه الأخطاء. يمكن أن يكون ذلك بسيطًا مثل توحيد التنسيقات، مثل التأكد من عرض التواريخ بالشكل MM/DD/YYYY. بعد التنظيف، غالبًا ما تحتاج البيانات إلى تحويلها إلى تنسيق يسهُل على الخوارزميات معالجته. تعمل هندسة الميزات على تهيئة البيانات غير المنسقة إلى صيغة قابلة للقراءة آليًا. فهي تحسِّن أداء نموذج التعلم الآلي من خلال تحويل الميزات ذات الصلة واختيارها.

تقسيم مجموعة البيانات

لتقييم مدى تعميم النموذج على البيانات الجديدة، يتم تقسيم مجموعة البيانات عادةً إلى ثلاث مجموعات. الأولى هي مجموعة تدريب تُستخدَم لضبط مَعلمات النموذج للعثور على أفضل تطابق بين تنبؤاته والبيانات، وهي عملية تدريب تُعرَف باسم "التخصيص". المجموعة الثانية هي مجموعة بيانات التحقق التي يتم استخدامها لإجراء الضبط الدقيق للمَعلمات الفائقة ومنع الإفراط في التخصيص. أخيرًا، يتم استخدام مجموعة بيانات الاختبار للتقييم النهائي لأداء النموذج.

تصنيف البيانات

تُعرَف أحيانًا باسم "التوصيف البشري"، وعملية توصيف البيانات هي إضافة تصنيفات ذات معنى للبيانات غير المنسقة ليتمكن النموذج من التعلم منها. يمكن أن تصف التصنيفات أي خاصية للبيانات. على سبيل المثال، يمكن تصنيف منشور على وسائل التواصل الاجتماعي يقول "هذا المنتج فظيع" على أنه "شعور سلبي" في عملية تُعرَف باسم تحليل المشاعر. يمكن للشارِح البشري أن يصنِّف صورة لكلب على أنها "كلب". يمكن تصنيف المعاملة المصرفية على أنها "احتيالية".

قد تتضمن الخطوات الأخرى هيكلة البيانات وتعزيزها وإصدارها. تتضمن بعض سير العمل حلقة من التعليقات حيث يكشف التحليل عن الحاجة إلى بيانات أكثر أو أفضل، أو حيث يمكن تصفية البيانات غير المفيدة.

التوجهات في بيانات التدريب

نظرًا لأن البيانات لا تقل أهمية عن بنية النموذج، فهناك الكثير من الاهتمام لتحسين عملية تدريب البيانات. البيانات الاصطناعية هي أحد مجالات الابتكار. بدلًا من جمع مجموعات بيانات ضخمة من الواقع، أصبحت المؤسسات الآن تولِّد بيانات اصطناعية باستخدام الذكاء الاصطناعي نفسه.

هناك اتجاه آخر يتمثل في مجموعات البيانات الأصغر حجمًا والأعلى جودة. لا تحتاج النماذج الكبيرة إلى المزيد من البيانات فحسب، بل تحتاج إلى بيانات أفضل. يُنشئ علماء البيانات مجموعات بيانات أصغر أو مجموعات بيانات مخصّصة لمهام معينة، لتكون مفيدة في حالات استخدام محدودة. فعلى سبيل المثال، يمكن تدريب النموذج اللغوي الكبير المستخدم في مجال الخدمات القانونية حصريًا على مجموعات نصوص قانونية لتحقيق نتائج أفضل.

يمكن تنفيذ عملية معالجة البيانات المسبقة الموصوفة في هذا المقال تلقائيًا باستخدام الذكاء الاصطناعي. تساعد الخوارزميات الحديثة على تنظيف مجموعات البيانات الضخمة، بإزالة النصوص منخفضة الجودة والمحتوى المكرر والمواد الروتينية غير المهمة، ما يوفر الوقت والموارد الحاسوبية.

هذه مجرد بعض التوجهات في مجال يتطور بسرعة.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا