في مجال علم البيانات، تمثل البيانات الحقيقية المعيار الذهبي للبيانات الدقيقة. وهو يُمكّن علماء البيانات من تقييم أداء النموذج من خلال مقارنة المخرجات بـ "الإجابة الصحيحة" (بيانات تستند إلى ملاحظات العالم الحقيقي). ويؤكد هذا أن نماذج التعلم الآلي (التعلم الآلي (ML)) تنتج نتائج دقيقة تعكس الواقع.
تُعد بيانات الحقيقة الأساسية مهمة خاصةً في مجال التعلم الخاضع للإشراف، وهي فئة فرعية من التعلم الآلي تستخدم مجموعات البيانات لتدريب الخوارزميات على تصنيف البيانات (المصنفات) أو التنبؤ بالنتائج بدقة.
يُعد تصنيف البيانات أو شرحها أمرًا أساسيًا لجمع البيانات الحقيقية. بدون ملصقات أو تعليقات توضيحية دقيقة، لا يمكن اعتبار البيانات معيارًا للحقيقة الواقعية.
تشكل بيانات الحقيقة الأساسية الأساس للتعلم الآلي الخاضع للإشراف، الذي يعتمد على مجموعات بيانات عالية الجودة ومُصنفة. تستخدم نماذج التعلم الآلي الخاضعة للإشراف لبناء العديد من تطبيقات الذكاء الاصطناعي الحالية وتطويرها. على سبيل المثال، تقف نماذج التعلم الآلي (ML) الخاضعة للإشراف وراء التعرف على الصور والأشياء، والتحليلات التنبؤية، وتحليل مشاعر العملاء، وكشف الرسائل غير المرغوب فيها.
توفر بيانات الحقيقة الأساسية المعلومات الدقيقة والموثقة اللازمة لتدريب نماذج التعلم الآلي الخاضعة للإشراف، والتحقق من صحة أدائها واختبار قدرتها على التعميم (أو إجراء تنبؤات دقيقة بناءً على بيانات جديدة). من خلال العمل بمثابة "الإجابة الصحيحة" مقارنة بتوقعات النموذج، تساعد الحقيقة الأساسية على ضمان أن أنظمة الذكاء الاصطناعي تتعلم الأنماط الصحيحة وتعمل بشكل موثوق في سيناريوهات العالم الحقيقي.
على سبيل المثال، تخيل صورة قطة. قد تتضمن مجموعة بيانات التدريب لهذه الصورة ملصقات لجسم القطة وأذنيها وعينيها وشاربها، وتصنيفات تصل إلى مستوى البكسل. تعمل هذه التعليقات التوضيحية على تعليم خوارزميات التعلم الآلي كيفية تحديد الميزات المماثلة داخل بيانات الصور الجديدة.
دقة ملصقات مجموعة التدريب هذه أمر حساس. إذا كانت التعليقات التوضيحية غير صحيحة أو غير متسقة (مثل وضع تصنيفات أقدام بدلاً من أقدام القطط)، فسيؤدي ذلك إلى فشل النموذج في معرفة الأنماط الصحيحة. يمكن أن يؤدي هذا إلى تنبؤات خاطئة.
قد تبدو القطة التي تمتلك مخالب كلب غير ضارة. ومع ذلك، فإن مخاطر التنبؤات الخاطئة أعلى في مجالات تشمل الرعاية الصحية والتخفيف من آثار تغير المناخ، حيث تكون الدقة في الوقت الحقيقي أمرًا بالغ الأهمية.
الحقيقة الأساسية ضرورية لدورة حياة التعلم الآلي (ML)، بما في ذلك مراحل تدريب النموذج والتحقق من صحته واختباره.
تعمل الحقيقة الأساسية كأساس للعديد من مهام التعلم تحت الإشراف، بما في ذلك التصنيف والانحدار والتجزئة. سواء كان النموذج يتعلم كيفية تصنيف البيانات أو التنبؤ بالنتائج الرقمية أو تحديد الكائنات في الصور، فإن الحقيقة الأساسية توفر المعيار للتنبؤات الدقيقة. تحتوي هذه المهام على حالات استخدام واسعة النطاق في العالم الحقيقي حيث تكون دقة بيانات الحقيقة الأساسية أمرًا بالغ الأهمية للنجاح.
في مهام التصنيف، توفر بيانات الحقيقة الأساسية العلامات الصحيحة لكل إدخال، ما يساعد النموذج على تصنيف البيانات إلى فئات محددة سابقًا. على سبيل المثال، في التصنيف الثنائي، يميز النموذج بين فئتين (مثل صواب أو خطأ). يُعد التصنيف متعدد الفئات أكثر تعقيدًا بعض الشيء: يقوم النموذج بتعيين البيانات لإحدى الفئات العديدة التي يجب أن يختارها.
ضع في الحسبان صناعة الرعاية الصحية. غالبًا ما تستخدم منصات الذكاء الاصطناعي تصنيفًا متعدد الفئات لتحليل الصور الطبية مثل التصوير المقطعي المحوسب والتصوير بالرنين المغناطيسي للمساعدة على التشخيص.
بشكل عام، يمكن لتطبيق الذكاء الاصطناعي أن ينظر إلى الأشعة السينية للرهن العقاري القابل للتعديل (ARM) ويصنفها إلى واحدة من أربع فئات: تالفة، أو ممزقة، أو ملتوية، أو صحية. إذا كانت بيانات الحقيقة الأساسية معيبة، فقد يؤدي ذلك إلى تنبؤات غير صحيحة، ما قد يؤدي إلى حدوث تشخيص خاطئ أو تأخير في المعالجة.
تركز مهام الانحدار على التنبؤ بالقيم المستمرة. تمثل بيانات الحقيقة الأساسية، النتائج العددية الفعلية التي يسعى النموذج إلى التنبؤ بها. على سبيل المثال، يمكن لنموذج الانحدار الخطي القيام بتوقعات بأسعار المساكن استنادًا إلى عوامل مثل المساحة المربعة وعدد الغرف والموقع.
في مجال التخفيف من آثار تغير المناخ، تستخدم نماذج الذكاء الاصطناعي صور Satellite وبيانات الاستشعار عن بُعد لمراقبة التغيرات البيئية بما في ذلك التحولات في درجات الحرارة أو إزالة الغابات.
تتضمن بيانات الحقيقة الأساسية في هذه الحالة سجلات تم التحقق منها لبيانات الطقس التاريخية أو قياسات درجة الحرارة المعروفة. تساعد بيانات الحقيقة الأساسية هذه على ضمان دقة تنبؤات نموذج الذكاء الاصطناعي ويمكنها أن تُنير القرارات الحساسة المتعلقة بالسياسات والإجراءات المناخية.
تتضمن مهام التجزئة تقسيم صورة أو مجموعة بيانات إلى مناطق أو كائنات مميزة. غالبًا ما يتم تعريف بيانات الحقيقة الأساسية في التجزئة على مستوى البكسل لتحديد الحدود أو المناطق داخل الصورة.
على سبيل المثال، في تطوير المركبات ذاتية القيادة، تُستخدم ملصقات الحقيقة الأساسية للتدريب على اكتشاف المشاة والمركبات وعلامات الطرق والتمييز بينها في بيئات العالم الحقيقي والتصرف وفقًا لذلك. إذا كانت ملصقات الحقيقة الأساسية غير صحيحة أو غير متسقة، فقد يخطئ النموذج في تحديد الأشياء، ما يشكل مخاطر جسيمة على السلامة على الطريق.
هناك العديد من التحديات التي تواجه إنشاء بيانات حقائق أساسية عالية الجودة، بما في ذلك:
هناك العديد من المنهجيات والاستراتيجيات التي يمكن للمجموعة استخدامها لإنشاء بيانات الحقيقة الأساسية عالية الجودة وتحسينها، بما في ذلك:
يمكنك إدارة نماذج الذكاء الاصطناعي من أي مكان ونشرها على السحابة أو بشكل محلي باستخدام IBM watsonx.governance.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.