لماذا تُعد جودة بيانات الذكاء الاصطناعي أمرًا أساسيًا لنجاح الذكاء الاصطناعي

خلفية رقمية تجريدية، تضم أكواداً ثنائية متوهجة باللون الأزرق، مع أشعة ضوئية برتقالية تتقاطع مع تدفق البيانات.

تعريف جودة بيانات الذكاء الاصطناعي

تُعد جودة البيانات في مجال الذكاء الاصطناعي (AI) هي الدرجة التي تكون فيها البيانات دقيقة، وكاملة، وموثوقة، وصالحة للاستخدام عبر دورة حياة الذكاء الاصطناعي بأكملها، بما في ذلك مراحل التدريب، والتحقق، والنشر. 

في أنظمة الذكاء الاصطناعي، تشمل جودة البيانات أيضاً عوامل يقل التركيز عليها في أبعاد جودة البيانات التقليدية—مثل التمثيل، والتحيز، ودقة التصنيف، والتباينات غير الصالحة—والتي يمكن أن تؤثر على سلوك النموذج.

لا يمكن المبالغة في مدى أهمية جودة البيانات في مجال الذكاء الاصطناعي؛ فعدم كفاءة جودة البيانات يعد أحد أكثر الأسباب شيوعاً لفشل مبادرات الذكاء الاصطناعي.نماذج الذكاء الاصطناعي المدربة على بيانات معيبة أو منحازة أو غير مكتملة ستنتج مخرجات غير موثوقة بغض النظر عن مدى تطور البنى. كما يقول المثل: مدخلات خاطئة تعطي مخرجات خاطئة.

من ناحية أخرى، تشكل البيانات عالية الجودة أساس الذكاء الاصطناعي الموثوق والفعال. مع تعقيد أنظمة الذكاء الاصطناعي وقابلية للتوسع، ستحدد إدارة جودة البيانات المستمرة والمتينة ما إذا كانت هذه الأنظمة قادرة على الأداء بشكل موثوق، والتكيف مع البيئات المتغيرة، وتمكين اتخاذ قرارات مستنيرة.

يمكن لأدوات جودة البيانات المتقدمة أن تساعد في تبسيط إدارة جودة بيانات الذكاء الاصطناعي من خلال دمج المراقبة والتحقق المستمرين مباشرةً في مسارات البيانات والنماذج. بالإضافة إلى الأتمتة القائمة على القواعد، يمكن استخدام الذكاء الاصطناعي لتحسين جودة بيانات الذكاء الاصطناعي عبر اكتشاف الحالات غير الطبيعية الدقيقة، وتحديد أولويات المشكلات بناءً على تأثيرها في النماذج اللاحقة، وغير ذلك الكثير. من خلال أتمتة عمليات التحقق من الدقة والاتساق والاكتمال وغيرها من أبعاد جودة البيانات، تساعد هذه الأدوات الفرق على اكتشاف المشكلات مبكراً والحفاظ على توافق جودة البيانات مع تطور أنظمة الذكاء الاصطناعي.

كفاءة الذكاء الاصطناعي مرهونة بجودة بياناته

تستمر المؤسسات في جميع أنحاء العالم في الاستثمار بكثافة في الذكاء الاصطناعي. من المتوقع أن يتجاوز الإنفاق العالمي على الذكاء الاصطناعي حاجز 2 تريليون دولار أمريكي في عام 2026، ما يمثل نمواً بنسبة 37% على أساس سنوي وفقاً لمؤسسة Gartner.1 ومع ذلك، فإن هذا التوسع المتسارع يحجب حقيقة أن العديد من مبادرات الذكاء الاصطناعي تكافح من أجل تقديم قيمة مستدامة.

كشفت دراسة معهد IBM لقيمة الأعمال (IBV) لعام 2025 الموجهة للرؤساء التنفيذيين أن 16% فقط من مبادرات الذكاء الاصطناعي قد نجحت في التوسع على نطاق المؤسسة،2 بينما يشير تقرير دراسة NANDA الصادر عن معهد MIT3 3إلى أن ما يصل إلى 95% من التجارب الأولية للذكاء الاصطناعي التوليدي تفشل في تجاوز مرحلة التجريب.

تشير الأبحاث إلى أن جودة بيانات الذكاء الاصطناعي وحوكمة البيانات تعد من العوامل الجوهرية لتمييز الأداء ضمن منظومة الذكاء الاصطناعي. "وجدت دراسة منفصلة أجراها معهد IBV أن 68% من المؤسسات التي تتبنى نهج 'الذكاء الاصطناعي أولاً' لديها أطر عمل ناضجة وراسخة للبيانات والحوكمة، مقارنة بـ 32% فقط من المؤسسات الأخرى.4

وكما يذكر معدو الدراسة: "رغم أن هذا الأساس القائم على بيانات منظمة وعالية الجودة وسهلة الوصول قد يبدو أقل بهرجة من الخوارزميات المتطورة أو حالات الاستخدام الطموحة، إلا أنه يمثل الشرط الجوهري والأساسي لتحقيق نجاح مستدام في مجال الذكاء الاصطناعي".

تكمن أهمية تلك الركيزة في أن نماذج التعلم الآلي—والتي تُعد جزءاً جوهرياً في العديد من أنظمة الذكاء الاصطناعي— "تتعلم" مباشرةً من مجموعات البيانات التي تُقدّم لها. عندما تسيء تلك البيانات تمثيل الواقع بسبب الأخطاء، أو الفجوات، أو المعلومات القديمة، أو صوامع البيانات، أو التحيز المنهجي، فإن النماذج لا ترث نقاط الضعف هذه فحسب، بل يمكنها أيضاً تضخيم مشكلات البيانات على نطاق واسع.

على سبيل المثال، في أنظمة الذكاء الاصطناعي التوليدي، مثل النماذج اللغوية الكبيرة (LLMs) المستخدمة في معالجة اللغات الطبيعية، قد تظهر مشكلات جودة البيانات على هيئة نصوص تحتوي على مغالطات واقعية أو مخرجات صور متحيزة. يمكن أن تؤدي رداءة جودة البيانات أيضاً إلى تفاوت في الأداء، ولا سيما في الحالات الحدية مثل المدخلات غير الشائعة والسيناريوهات ضعيفة التمثيل.

حتى النسب الضئيلة من البيانات منخفضة الجودة قد تتسبب في آثار سلبية هائلة. إن مجرد نتائج قليلة ضعيفة قد تقوض عملية اتخاذ القرار والثقة في التقنية بشكل عام، مما يدفع المسؤولين التنفيذيين إلى استنتاج أن أداة الذكاء الاصطناعي معيبة، في حين أن السبب الأساسي يكمن في جودة البيانات التي تغذيها.

بالإضافة إلى النتائج التقنية، تنطوي جودة بيانات الذكاء الاصطناعي المنخفضة على تبعات قانونية وأخلاقية، بما في ذلك المخاطر المتعلقة بخصوصية البيانات والاستخدام المسؤول للبيانات. إن النماذج المدربة على بيانات تفتقر إلى الحوكمة السليمة قد تؤدي إلى تكريس التمييز في مجالات مثل التوظيف، والإقراض، والرعاية الصحية، والخدمات العامة. وفي الوقت ذاته، تفرض اللوائح التنظيمية بما في ذلك قانون الذكاء الاصطناعي للاتحاد الأوروبي والمجموعة المتنامية من قوانين الذكاء الاصطناعي على مستوى الولايات الأمريكية‑مسؤولية متزايدة على المؤسسات فيما يتعلق بخصوصية البيانات، بالإضافة إلى جودة بيانات التدريب ومدى تمثيلها وموثوقية مصدرها.

كيف تختلف جودة بيانات الذكاء الاصطناعي عن جودة البيانات التقليدية؟

تعتمد عملية قياس جودة بيانات الذكاء الاصطناعي على العديد من أبعاد جودة البيانات نفسها التي يتم تتبعها من خلال مقاييس جودة البيانات التقليدية. كمن الفرق في كيفية إعادة صياغة أبعاد جودة البيانات ضمن سيناريوهات الذكاء الاصطناعي: حيث يتم تقييمها بناءً على تأثيرها في تدريب النماذج، وقدرة النماذج على التعميم، والعدالة، والمخاطر التشغيلية—لا سيما مع تطوير النماذج ونشرها في بيئات بيانات مختلفة.

عند تطبيقها على أنظمة الذكاء الاصطناعي، يتم تقييم جودة البيانات باستخدام نسخ معدلة من أبعاد جودة البيانات التالية:

  • دقة البيانات
  • الاكتمال
  • تكامل البيانات
  • الاتساق
  • حسن التوقيت
  • الصلة

دقة البيانات

في الإعدادات التقليدية، تركز الدقة على ما إذا كانت قيم البيانات تمثل بشكل صحيح كيانات أو أحداثًا في العالم الحقيقي، وغالبًا ما يتم التحقق منها من خلال عمليات التحقق الأساسية والعتبات المحددة مسبقًا. في أنظمة الذكاء الاصطناعي، تعتمد الدقة أيضًا على عمليات التحقق من صحة البيانات القوية التي تقيّم كيفية تأثير ضوضاء التصنيف (أمثلة التدريب المصنفة بشكل غير صحيح أو غامض) وخطأ القياس والمتغيرات البديلة على تدريب النموذج.

الاكتمال

بالإضافة إلى التحقق مما إذا كانت الحقول أو السجلات المطلوبة مفقودة ضمن معيار الاكتمال، فإن مفهوم جودة البيانات للذكاء الاصطناعي يمتد ليشمل ما إذا كانت البيانات تغطي بشكل كافٍ النطاق الكامل للحالات التي يُتوقع أن يواجهها النموذج، مثل حالات الحافة، والأحداث النادرة، والفئات الأقلية. يمكن أن تؤدي الفجوات في التغطية إلى نماذج هشّة تعمل بشكل جيد في المتوسط ولكنها تفشل في السيناريوهات غير الممثلة كفاية، مما يزيد من مخاطر العدالة والمخاطر التشغيلية.

سلامة البيانات

تقليدياً، تتمحور سلامة البيانات حول ضمان امتثال البيانات للقواعد الأساسية، مثل الالتزام بالمخطط الصحيح والربط السليم عبر الأنظمة المختلفة. بالنسبة للذكاء الاصطناعي، تعني سلامة البيانات أيضًا معرفة مصدر البيانات بالضبط والقدرة على إعادة إنشاء كيفية إعدادها واستخدامها في جميع مراحل مسار البيانات بالكامل.

يجب أن تكون الفرق قادرة على تتبع البيانات إلى مصدرها الأصلي والاحتفاظ بسجل واضح لكل تغيير يتم إجراؤه عليها. يجب حماية أصول البيانات الهامة، بما في ذلك بيانات التدريب ومدخلات النماذج، بحيث يمكن رصد والتحقق من مشكلات مثل التلف العرضي، أو التكرار، أو التغييرات غير المصرح بها.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

الاتساق

بمعزل عن اتساق التنسيقات والتعريفات، فإن قياس جودة بيانات الذكاء الاصطناعي يعني فحص ما إذا كانت عمليات جمع البيانات ومعالجتها وتعزيزها تتم بطرق متسقة عبر البيانات التاريخية والبيانات الجديدة على حد سواء. يساعد هذا الفحص في ضمان أن التغييرات في مسارات نقل البيانات أو المصادر لا تؤدي عن غير قصد إلى إدخال تشوهات، أو تحيز، أو مخاطر على النماذج في المراحل اللاحقة.

الدقة الزمنية

تركز الدقة الزمنية على مدى معاصرة البيانات عند نقطة جمعها. في أنظمة الذكاء الاصطناعي، تقتضي الدقة الزمنية أيضاً مراقبة مدى اختلاف البيانات الجديدة أو البيانات في الوقت الفعلي عن بيانات التدريب، حيث يمكن أن يؤدي انحراف البيانات أو المفاهيم إلى تدهور أداء النموذج.

الصلة

بدلاً من التساؤل عما إذا كانت البيانات مفيدة على نطاق واسع أو مرتبطة بمجال المشكلة، فإن تقييم صلة البيانات في حالات استخدام الذكاء الاصطناعي يعني تحديد ما إذا كانت كل سمة وكل نموذج يقدمان معلومات تدعم الوظيفة المقصودة للنظام. تتضمن هذه المعايير فحص ما إذا كانت البيانات تؤدي إلى تحسين أداء التنبؤ، ودعم مرونة النموذج عبر ظروف مختلفة، وتقليل الحساسية تجاه الضجيج أو الارتباطات الزائفة، بالإضافة إلى تسهيل عمليات التفسير أو التشخيص اللاحقة.

كيفية تحقيق جودة البيانات للذكاء الاصطناعي

إن قياس جودة بيانات الذكاء الاصطناعي يضع حجر الأساس للمقارنة المرجعية، إلا أن الحفاظ عليها يستلزم مراقبة مستمرة لجودة البيانات مع تطور البيانات وأنماط الاستخدام وظروف التشغيل. أربع ممارسات أساسية لتحسين واستدامة جودة بيانات الذكاء الاصطناعي تشمل:

  • توصيف البيانات واستكشافها في مرحلة مبكرة من دورة الحياة
  • قابلية ملاحظة البيانات كأساس
  • التحقق من جودة البيانات باستخدام الذكاء الاصطناعي
  • إغلاق الحلقة بالمعالجة والملاحظات
توصيف البيانات واستكشافها في مرحلة مبكرة من دورة الحياة

تساعد عملية توصيف البيانات الفرق على فهم مصادر البيانات الأساسية، وكيفية جمعها وهيكلتها وتحويلها، وكيفية تدفقها عبر مسارات البيانات من خلال تتبع دورة حياة البيانات. تشمل هذه العملية تحديد القيم غير الطبيعية، والتحقق من القيم المفقودة، وتحليل العلاقات عبر البيانات المنظمة وغير المنظمة مثل النصوص أو الصور.

تؤسس هذه الممارسات أساسًا قويًا للبيانات الدقيقة لتدريب النموذج. يجب أن تتم هذه العمليات قبل البدء في تطوير النموذج، وأن تُدمج ضمن سير عمل إعداد البيانات الأولية، مع الاستفادة من كل من البيانات غير المنسقة والبيانات الوصفية المرتبطة بها.

قابلية ملاحظة البيانات كأساس

توفر قابلية ملاحظة البيانات الرؤية اللازمة لتمكين المراقبة المستمرة والفحوصات الفعالة على نطاق واسع عبر سير العمل الإنتاجي. من خلال مراقبة مسارات البيانات، تساعد قابلية الملاحظة الفرق على رؤية كيف تتغير البيانات مع مرور الوقت، وتتبع مشاكل الجودة إلى مصادرها، وربط تغييرات البيانات بنتائج النماذج اللاحقة.

تعد هذه الرؤية الشاملة ضرورية للحفاظ على جودة البيانات مع تزايد أنظمة الذكاء الاصطناعي في التعقيد والحجم وقابلية التوسع.

التحقق من جودة البيانات باستخدام الذكاء الاصطناعي

يمكن استخدام الذكاء الاصطناعي نفسه لتحسين جودة وموثوقية وحوكمة البيانات التي تغذي نماذجها. "يمكن لحلول جودة البيانات المدعومة بالذكاء الاصطناعي، والمزودة بميزات الأتمتة المدمجة ووكلاء الذكاء الاصطناعي، إجراء تحليل تعريفي مستمر لمجموعات البيانات الجديدة والضخمة والمعقدة أثناء انتقالها عبر مسارات البيانات.

بالإضافة إلى ذلك، يمكنها إجراء كشف الخلل لتحديد حالات عدم الاتساق، ونقاط البيانات الخارجة عن النطاق، وتحولات التوزيع، وتطبيق تقنية إزالة التكرار لرصد السجلات المكررة والقضاء عليها ومشكلات جودة البيانات ذات الصلة.

إغلاق الحلقة بالمعالجة والملاحظات

يتطلب الحفاظ على جودة بيانات الذكاء الاصطناعي أيضاً حلقات ملاحظات تربط إشارات المراقبة بالعمل. تستفيد الرؤى من مراقبة جودة البيانات وقابليتها للملاحظة في اتخاذ خطوات المعالجة مثل إعادة تدريب النماذج، وتحديث إرشادات التصنيف، وتعديل منطق المعالجة المسبقة أو جمع بيانات إضافية في المناطق الممثلة تمثيلاً ناقصاً.

مع مرور الوقت، تمكن هذه الملاحظات المستمرة الفرق من تحسين ممارسات جودة البيانات وأداء النماذج مع تطور نظام الذكاء الاصطناعي.

Alexandra Jonker

Staff Editor

IBM Think

Judith Aquino

Staff Writer

IBM Think

حلول ذات صلة
IBM watsonx.governance

حوّل الذكاء الاصطناعي الموثوق إلى واقع تشغيلي من خلال مراقبة النماذج وإدارة المخاطر وفرض الحوكمة عبر كامل دورة حياة الذكاء الاصطناعي لديك.

استكشف ®watsonx.governance
حلول حوكمة البيانات

تحكَّم في بياناتك باستخدام أدوات الحوكمة التي تعمل على تحسين الجودة وضمان الامتثال وتمكين التحليلات الموثوقة والذكاء الاصطناعي.

استكشف حلول حوكمة البيانات
استشارات حوكمة الذكاء الاصطناعي

ضع ممارسات الذكاء الاصطناعي المسؤول بتوجيه من الخبراء لإدارة المخاطر وتلبية اللوائح التنظيمية وتشغيل الذكاء الاصطناعي الموثوق على نطاق واسع.

استكشف استشارات حوكمة الذكاء الاصطناعي
اتخذ الخطوة التالية

وجّه الذكاء الاصطناعي الخاص بك وأدِره وراقبه من خلال محفظة حلول موحدة—ما يسرِّع الوصول إلى نتائج مسؤولة وشفافة وقابلة للتفسير.

  1. استكشف watsonx.governance
  2. اكتشف حلول حوكمة الذكاء الاصطناعي