ما الحقيقة الأساسية؟

20 ديسمبر 2024

المؤلفين

Alexandra Jonker

Editorial Content Lead

ما الحقيقة الأساسية؟

تشير الحقيقة الأساسية أو بيانات الحقيقة الأساسية إلى البيانات الحقيقية التي تم التحقق منها والتي تُستخدم في تدريب نماذج الذكاء الاصطناعي (AI) والتحقق من صحتها واختبارها.
 

في مجال علم البيانات، تمثل البيانات الحقيقية المعيار الذهبي للبيانات الدقيقة. وهو يُمكّن علماء البيانات من تقييم أداء النموذج من خلال مقارنة المخرجات بـ "الإجابة الصحيحة" (بيانات تستند إلى ملاحظات العالم الحقيقي). ويؤكد هذا أن نماذج التعلم الآلي (التعلم الآلي (ML)) تنتج نتائج دقيقة تعكس الواقع.

تُعد بيانات الحقيقة الأساسية مهمة خاصةً في مجال التعلم الخاضع للإشراف، وهي فئة فرعية من التعلم الآلي تستخدم مجموعات البيانات لتدريب الخوارزميات على تصنيف البيانات (المصنفات) أو التنبؤ بالنتائج بدقة.

يُعد تصنيف البيانات أو شرحها أمرًا أساسيًا لجمع البيانات الحقيقية. بدون ملصقات أو تعليقات توضيحية دقيقة، لا يمكن اعتبار البيانات معيارًا للحقيقة الواقعية.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

لماذا تعتبر بيانات الحقيقة الأساسية مهمة؟

تشكل بيانات الحقيقة الأساسية الأساس للتعلم الآلي الخاضع للإشراف، الذي يعتمد على مجموعات بيانات عالية الجودة ومُصنفة. تستخدم نماذج التعلم الآلي الخاضعة للإشراف لبناء العديد من تطبيقات الذكاء الاصطناعي الحالية وتطويرها. على سبيل المثال، تقف نماذج التعلم الآلي (ML) الخاضعة للإشراف وراء التعرف على الصور والأشياء، والتحليلات التنبؤية، وتحليل مشاعر العملاء، وكشف الرسائل غير المرغوب فيها.

توفر بيانات الحقيقة الأساسية المعلومات الدقيقة والموثقة اللازمة لتدريب نماذج التعلم الآلي الخاضعة للإشراف، والتحقق من صحة أدائها واختبار قدرتها على التعميم (أو إجراء تنبؤات دقيقة بناءً على بيانات جديدة). من خلال العمل بمثابة "الإجابة الصحيحة" مقارنة بتوقعات النموذج، تساعد الحقيقة الأساسية على ضمان أن أنظمة الذكاء الاصطناعي تتعلم الأنماط الصحيحة وتعمل بشكل موثوق في سيناريوهات العالم الحقيقي.

على سبيل المثال، تخيل صورة قطة. قد تتضمن مجموعة بيانات التدريب لهذه الصورة ملصقات لجسم القطة وأذنيها وعينيها وشاربها، وتصنيفات تصل إلى مستوى البكسل. تعمل هذه التعليقات التوضيحية على تعليم خوارزميات التعلم الآلي كيفية تحديد الميزات المماثلة داخل بيانات الصور الجديدة.

دقة ملصقات مجموعة التدريب هذه أمر حساس. إذا كانت التعليقات التوضيحية غير صحيحة أو غير متسقة (مثل وضع تصنيفات أقدام بدلاً من أقدام القطط)، فسيؤدي ذلك إلى فشل النموذج في معرفة الأنماط الصحيحة. يمكن أن يؤدي هذا إلى تنبؤات خاطئة.

قد تبدو القطة التي تمتلك مخالب كلب غير ضارة. ومع ذلك، فإن مخاطر التنبؤات الخاطئة أعلى في مجالات تشمل الرعاية الصحية والتخفيف من آثار تغير المناخ، حيث تكون الدقة في الوقت الحقيقي أمرًا بالغ الأهمية.  

Mixture of Experts | 25 أبريل، الحلقة 52

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم في أثناء سعيهم للتغلب على الفوضى والضوضاء المحيطة بالذكاء الاصطناعي لتزويدك بأحدث أخباره والرؤى المتعلقة به.

الحقيقة الأساسية طوال دورة حياة التعلم الآلي

الحقيقة الأساسية ضرورية لدورة حياة التعلم الآلي (ML)، بما في ذلك مراحل تدريب النموذج والتحقق من صحته واختباره.

  • التدريب: خلال مرحلة التدريب، توفر بيانات الحقيقة الأساسية الإجابات الصحيحة للنموذج ليتعلم منها النموذج. دقة تصنيف البيانات أمر بالغ الأهمية: إذا كانت بيانات الحقيقة الأساسية خاطئة أو غير متسقة، فإن النموذج يتعلم أنماطًا غير صحيحة ويكافح من أجل وضع تنبؤات دقيقة.

  • التحقق: عندما يتم تدريب النموذج، يتم تقييمه بناءً على مدى تعلمه من بيانات الحقيقة الأساسية. يتم ذلك من خلال التحقق من الصحة، حيث تتم مقارنة تنبؤات النموذج بعينة مختلفة من بيانات الحقيقة الأساسية. يمكن تعديل النموذج وضبطه في هذه المرحلة.

  • الاختبار: بعد تدريب النموذج والتحقق من صحته، يساعد الاختبار باستخدام مجموعة بيانات الحقيقة الأساسية الجديدة على ضمان أدائه بشكل جيد على البيانات الجديدة غير المرئية (التعميم). هذا هو المكان الذي يتم فيه تقييم فعالية النموذج في السيناريوهات الواقعية حقًا. تقوم مقاييس مثل الدقة والضبط والاستدعاء بتقييم أداء النموذج وتسليط الضوء على مجالات التحسين.

الحقيقة الأساسية في مهام التعلم الآلي (ML) المختلفة

تعمل الحقيقة الأساسية كأساس للعديد من مهام التعلم تحت الإشراف، بما في ذلك التصنيف والانحدار والتجزئة. سواء كان النموذج يتعلم كيفية تصنيف البيانات أو التنبؤ بالنتائج الرقمية أو تحديد الكائنات في الصور، فإن الحقيقة الأساسية توفر المعيار للتنبؤات الدقيقة. تحتوي هذه المهام على حالات استخدام واسعة النطاق في العالم الحقيقي حيث تكون دقة بيانات الحقيقة الأساسية أمرًا بالغ الأهمية للنجاح.

التصنيف

في مهام التصنيف، توفر بيانات الحقيقة الأساسية العلامات الصحيحة لكل إدخال، ما يساعد النموذج على تصنيف البيانات إلى فئات محددة سابقًا. على سبيل المثال، في التصنيف الثنائي، يميز النموذج بين فئتين (مثل صواب أو خطأ). يُعد التصنيف متعدد الفئات أكثر تعقيدًا بعض الشيء: يقوم النموذج بتعيين البيانات لإحدى الفئات العديدة التي يجب أن يختارها.  

ضع في الحسبان صناعة الرعاية الصحية. غالبًا ما تستخدم منصات الذكاء الاصطناعي تصنيفًا متعدد الفئات لتحليل الصور الطبية مثل التصوير المقطعي المحوسب والتصوير بالرنين المغناطيسي للمساعدة على التشخيص.

بشكل عام، يمكن لتطبيق الذكاء الاصطناعي أن ينظر إلى الأشعة السينية للرهن العقاري القابل للتعديل (ARM) ويصنفها إلى واحدة من أربع فئات: تالفة، أو ممزقة، أو ملتوية، أو صحية. إذا كانت بيانات الحقيقة الأساسية معيبة، فقد يؤدي ذلك إلى تنبؤات غير صحيحة، ما قد يؤدي إلى حدوث تشخيص خاطئ أو تأخير في المعالجة.

الانحدار

تركز مهام الانحدار على التنبؤ بالقيم المستمرة. تمثل بيانات الحقيقة الأساسية، النتائج العددية الفعلية التي يسعى النموذج إلى التنبؤ بها. على سبيل المثال، يمكن لنموذج الانحدار الخطي القيام بتوقعات بأسعار المساكن استنادًا إلى عوامل مثل المساحة المربعة وعدد الغرف والموقع.

في مجال التخفيف من آثار تغير المناخ، تستخدم نماذج الذكاء الاصطناعي صور Satellite وبيانات الاستشعار عن بُعد لمراقبة التغيرات البيئية بما في ذلك التحولات في درجات الحرارة أو إزالة الغابات.

تتضمن بيانات الحقيقة الأساسية في هذه الحالة سجلات تم التحقق منها لبيانات الطقس التاريخية أو قياسات درجة الحرارة المعروفة. تساعد بيانات الحقيقة الأساسية هذه على ضمان دقة تنبؤات نموذج الذكاء الاصطناعي ويمكنها أن تُنير القرارات الحساسة المتعلقة بالسياسات والإجراءات المناخية.

التقسيم

تتضمن مهام التجزئة تقسيم صورة أو مجموعة بيانات إلى مناطق أو كائنات مميزة. غالبًا ما يتم تعريف بيانات الحقيقة الأساسية في التجزئة على مستوى البكسل لتحديد الحدود أو المناطق داخل الصورة.

على سبيل المثال، في تطوير المركبات ذاتية القيادة، تُستخدم ملصقات الحقيقة الأساسية للتدريب على اكتشاف المشاة والمركبات وعلامات الطرق والتمييز بينها في بيئات العالم الحقيقي والتصرف وفقًا لذلك. إذا كانت ملصقات الحقيقة الأساسية غير صحيحة أو غير متسقة، فقد يخطئ النموذج في تحديد الأشياء، ما يشكل مخاطر جسيمة على السلامة على الطريق.

التحديات الشائعة في تحديد الحقيقة الأساسية

هناك العديد من التحديات التي تواجه إنشاء بيانات حقائق أساسية عالية الجودة، بما في ذلك:

  • تصنيف البيانات غير المتسقة: غالبًا ما يواجه عالم البيانات تنوعًا في مجموعة البيانات، وهو ما قد يؤدي إلى تناقضات تؤثر في سلوك النموذج. حتى الأخطاء الطفيفة في وضع التصنيفات في ما يتعلق بالإسناد والاستشهاد يمكن أن تتفاقم، ما يؤدي إلى حدوث أخطاء في التنبؤ بالنموذج.

  • الذاتية والغموض: تتطلب العديد من مهام تصنيف البيانات حكمًا بشريًا قد يكون ذاتيًا. على سبيل المثال، في مهام مثل تحليل المشاعر، قد يفسر المعلقون المختلفون البيانات بشكل مختلف، ما يؤدي إلى تناقضات في الحقيقة الأساسية.

  • تعقيد البيانات: يمكن أن تكون مجموعات البيانات الكبيرة والمتنوعة—الشائعة في مجالات مثل معالجة اللغة الطبيعية أو الذكاء الاصطناعي التوليدي—أكثر صعوبة في الشرح الدقيق. يمكن أن يؤدي تعقيد البيانات، مع تعدد الملصقات المحتملة والفروق الدقيقة في السياق، إلى زيادة صعوبة إنشاء حقيقة أساسية متسقة.

  • البيانات المنحرفة والمتحيزة: قد لا تكون بيانات الحقيقة الأساسية دائمًا ممثلة بشكل كامل للسيناريوهات الواقعية، خاصةً إذا كانت مجموعة البيانات المُصنفة غير مكتملة أو غير متوازنة. قد تؤدي هذه النتائج إلى ظهور نماذج متحيزة.

  • قابلية التوسع والتكلفة: تستغرق عملية تصنيف مجموعة البيانات، لا سيما تلك التي تتطلب معرفة الخبير والملاحظة المباشرة (مثل الصور الطبية)، وقتًا طويلاً وتكلفة كبيرة. غالبًا ما تتطلب جهود توسيع نطاق تصنيف البيانات لتلبية متطلبات أنظمة الذكاء الاصطناعي الحديثة الأتمتة أو التمويل الجماعي، ولكن لا يزال بإمكان هذه الأساليب التسبب في أخطاء أو تناقضات.

الاستراتيجية لإنشاء بيانات الحقيقة الأساسية عالية الجودة

هناك العديد من المنهجيات والاستراتيجيات التي يمكن للمجموعة استخدامها لإنشاء بيانات الحقيقة الأساسية عالية الجودة وتحسينها، بما في ذلك:

  • تحديد الهدف ومتطلبات البيانات: إن تحديد أهداف النموذج بوضوح يساعد الشركات على تحديد أنواع البيانات والملصقات المطلوبة بحيث تتوافق عملية جمع البيانات مع الاستخدام المقصود للنموذج. يعد هذا التوافق مهمًا بشكل خاص في مجالات مثل رؤية الكمبيوتر حيث تقوم تقنيات التعلم الآلي (ML) والشبكات العصبية بتعليم الأنظمة كيفية استخلاص معلومات مفيدة من المدخلات المرئية.

  • تطوير استراتيجية شاملة للتصنيف: يمكن للمجموعات إنشاء مبادئ توجيهية موحدة لتصنيف بيانات الحقيقة الأساسية للمساعدة على ضمان الاتساق والدقة عبر مجموعة البيانات. مخطط وضع العلامات المحدد جيدًا قد يوجه كيفية التعليق على تنسيقات البيانات المختلفة والحفاظ على التعليقات التوضيحية موحدة في أثناء تطوير النموذج.

  • استخدام التعاون البشري والآلي: يمكن لأدوات التعلم الآلي بما في ذلك Amazon SageMaker Ground Truth أو IBM Watson® Natural Language Understanding تضخيم خبرة المعلقين البشريين. على سبيل المثال، يوفر Amazon SageMaker Ground Truth خدمة تصنيف البيانات ، ما يُسهل إنشاء مجموعات بيانات تدريب عالية الجودة من خلال عمليات التصنيف المؤتمتة والتقييم البشرية.

  • التحقق من اتساق البيانات: يمكن للفرق مراقبة البيانات المصنفة للتأكد من اتساقها من خلال تنفيذ عمليات ضمان الجودة، مثل اتفاقيات الشرح البيني (IAA). إن IAA عبارة عن مقياس إحصائي يقيس مستوى الاتساق بين الشارحين المختلفين عند تصنيف البيانات نفسها.

  • معالجة التحيز: يجب على علماء البيانات أن يكونوا على دراية بالتحيزات المحتملة في مجموعات بيانات الحقيقة الأساسية الخاصة بهم ومحاولة تجنبها. ويمكنهم استخدام عدة تقنيات، بما في ذلك ضمان ممارسات جمع البيانات المتنوعة من خلال استخدام شارحين متعددين ومتنوعين لكل نقطة بيانات، أو من خلال الإحالة المرجعية للبيانات مع مصادر خارجية أو باستخدام الاستراتيجيات لزيادة البيانات للمجموعات غير الممثلة بشكل كافٍ.

  • تحديث بيانات الحقيقة الأساسية: تُعد بيانات الحقيقة الأساسية أصلاً ديناميكيًا. يمكن للمجموعات التأكد من تنبؤات نموذجها مقابل البيانات الجديدة وتحديث مجموعة البيانات مع تطور الظروف الواقعية. إن صور Satellite وبيانات الاستشعار عن بُعد ونماذج تغير المناخ كلها أمثلة على مجموعات البيانات التي تتطلب معايرة مستمرة للحفاظ على الدقة مع مرور الوقت.
حلول ذات صلة
IBM® watsonx.governance™

يمكنك إدارة نماذج الذكاء الاصطناعي من أي مكان ونشرها على السحابة أو بشكل محلي باستخدام IBM watsonx.governance.

استكشف watsonx.governance
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك توجيه الذكاء الاصطناعي الذي تستخدمه وإدارته ومراقبته باستخدام محفظة واحدة لتسريع تنفيذ الذكاء الاصطناعي المسؤول والشفاف والقابل للتفسير.

استكشف watsonx.governance احجز عرضًا توضيحيًا مباشرًا