عندما تسمع كلمة "اصطناعية"، قد تربطها بشيء اصطناعي أو مصطنع. خذ على سبيل المثال الألياف الاصطناعية مثل البوليستر والنايلون، وهي ألياف اصطناعية مصنوعة من خلال عمليات كيميائية.
على الرغم من أن الألياف الاصطناعية أقل تكلفة وأسهل في الإنتاج بكميات كبيرة، إلا أن جودتها يمكن أن تنافس جودة الألياف الطبيعية. وغالبًا ما يتم تصميمها لتحاكي نظيراتها الطبيعية ويتم تصميمها لاستخدامات محددة - سواء كانت ألياف مرنة من الإيلاستين أو الأكريليك المحتفظ بالحرارة أو البوليستر المتين.
ينطبق الأمر نفسه على البيانات الاصطناعية، حيث يمكن استخدام هذه المعلومات المُولَّدة صناعيًا لإثراء أو حتى استبدال البيانات الواقعية عند تدريب أو اختبار نماذج الذكاء الاصطناعي (AI). وبالمقارنةً مع مجموعات البيانات الحقيقية التي قد تكون مكلفة في الحصول عليها، وصعبة الوصول، ويستغرق تصنيفها وقتًا طويلًا، ومحدودة الكمية، يمكن توليد البيانات الاصطناعية من خلال المحاكاة الحاسوبية أو النماذج التوليدية. يُتيح ذلك إنتاجها بتكلفة أقل، وبكميات غير محدودة تقريبًا، وبتخصيص يتناسب مع احتياجات المؤسسة.
على الرغم من مزاياها، فإن البيانات الاصطناعية تواجه أيضًا تحديات. قد تكون عملية توليدها معقدة، حيث يجب على علماء البيانات توليد بيانات واقعية مع الحفاظ على الجودة والخصوصية في الوقت نفسه.
لا تزال البيانات الاصطناعية تلعب دورًا متزايدًا. تتوقع شركة الأبحاث Gartner أنه بحلول عام 2026، ستستخدم 75% من الشركات الذكاء الاصطناعي التوليدي لتوليد بيانات عملاء اصطناعية.1
لمساعدة الشركات على تحقيق أقصى استفادة من البيانات الاصطناعية، إليك 8 أفضل الممارسات لتوليد البيانات الاصطناعية:
افهم سبب احتياج عملك إلى بيانات تركيبية وحالات الاستخدام التي قد تكون فيها أكثر فائدة من البيانات الحقيقية. في مجال الرعاية الصحية، على سبيل المثال، في الرعاية الصحية، يمكن توليد السجلات الطبية أو الصور الطبية صناعيًا—دون احتوائها على بيانات حساسة أو معلومات تعريف شخصية (PII). يتيح ذلك أيضًا مشاركة البيانات بأمان بين الباحثين وفرق علم البيانات.
يمكن استخدام البيانات الاصطناعية كبيانات اختبار أثناء تطوير البرمجيات، حيث تحل محل بيانات الإنتاج الحساسة مع محاكاة خصائصها. كما تتيح للشركات تجنب مشكلات حقوق النشر والملكية الفكرية، من خلال توليد البيانات بدلًا من استخدام برامج الزحف لجمع المعلومات من المواقع الإلكترونية دون معرفة المستخدمين أو موافقتهم.
كما يمكن أن تعمل البيانات الاصطناعية كشكل من أشكال تعزيز البيانات. إذ يمكن استخدامها لزيادة تنوع البيانات، خاصة للمجموعات الممثلة تمثيلاً ضعيفًا في تدريب نماذج الذكاء الاصطناعي. وعندما تكون المعلومات محدودة، يمكن للبيانات الاصطناعية سد هذه الفجوات.
على سبيل المثال، واجهت شركة الخدمات المالية J.P. Morgan صعوبة في تدريب النماذج المدعومة بالذكاء الاصطناعي للكشف عن الغش نظرًا لقلة حالات الاحتيال مقارنة بالحالات غير الاحتيالية. لذا، استخدمت الشركة توليد البيانات الاصطناعية لإنشاء مزيد من أمثلة المعاملات الاحتيالية (محتوى الرابط موجود خارج موقع ibm.com)، مما ساهم في تحسين تدريب النموذج.
تعتمد جودة البيانات الاصطناعية على جودة البيانات الواقعية التي تستند إليها. عند إعداد مجموعات البيانات الأصلية لتوليد البيانات الاصطناعية باستخدام خوارزميات التعلم الآلي (ML)، تأكد من فحص أي أخطاء أو عدم دقة أو تناقضات وتصحيحها. قم بإزالة أي بيانات مكررة، وأدخل القيم المفقودة.
ضع في اعتبارك إضافة الحالات الحدّية أو القيم الخارجية إلى البيانات الأصلية. يمكن أن تمثل هذه النقاط أحداثًا غير شائعة أو سيناريوهات نادرة أو حالات قصوى تعكس عدم القدرة على التنبؤ والتباين في العالم الحقيقي.
يقول Akash Srivastava، كبير المهندسين المعماريين في InstructLab (محتوى الرابط موجود خارج موقع ibm.com)، وهو مشروع مفتوح المصدر من ®IBM وRed Hat يعتمد على نهج تعاوني لإضافة معارف ومهارات جديدة إلى النموذج، والمدعوم بأسلوب توليد البيانات الاصطناعية الجديد من IBM وبروتوكول التدريب المرحلي : "الأمر يعتمد على أمثلة التهيئة الأولية. يجب أن تحاكي الأمثلة التي تُستخدم في توليد البيانات حالات الاستخدام الفعلية في العالم الحقيقي."
لا تزال البيانات الاصطناعية عرضة لاكتساب وعكس التحيزات الموجودة في البيانات الأصلية التي تستند إليها. يمكن أن يساعد دمج المعلومات من مصادر متعددة، بما في ذلك مجموعات ديموغرافية ومناطق مختلفة، في تقليل التحيز في البيانات المُولَّدة.
يمكن أن تساهم تنوع مصادر البيانات أيضًا في رفع جودة مجموعات البيانات الاصطناعية. إذ توفر المصادر المتعددة تفاصيل أساسية أو سياقًا مهمًا قد تفتقر إليه المصادر الفردية أو القليلة. بالإضافة إلى ذلك، يمكن دمج التوليد المعزز بالاسترجاع في عملية توليد البيانات الاصطناعية، مما يتيح الوصول إلى بيانات محدثة ومتخصصة في المجال، مما يزيد من الدقة ويُحسّن الجودة بشكل أكبر.
يعتمد اختيار التقنية المناسبة لتوليد البيانات الاصطناعية على عدة عوامل، بما في ذلك نوع البيانات وتعقيدها. قد تستفيد البيانات البسيطة نسبيًا من الأساليب الإحصائية، في حين قد تتطلب مجموعات البيانات الأكثر تعقيدًا—مثل البيانات المنظمة كالبيانات الجدولية أو البيانات غير المنظمة كالصور أو مقاطع الفيديو—استخدام نماذج التعلم العميق. كما يمكن للمؤسسات دمج تقنيات التوليد وفقًا لمتطلباتها.
فيما يلي بعض أشهر آليات توليد البيانات الاصطناعية:
يمكن لعلماء البيانات تحليل التوزيعات الإحصائية في البيانات الحقيقية وتوليد عينات اصطناعية تعكس تلك التوزيعات. ومع ذلك، فإن هذه العملية تتطلب معرفة وخبرة كبيرة، كما أن بعض البيانات قد لا تتناسب مع أي توزيع معروف.
تتكون شبكات الخصومة التوليدية (GANs) من شبكتين عصبيتين: مولّد يقوم بإنشاء بيانات اصطناعية، ومُميّز يعمل كخصم يميز بين البيانات الاصطناعية والبيانات الحقيقية. يتم تدريب كلا الشبكتين بشكل تكراري، حيث يُحسّن المميّز أداء المولّد من خلال تقديم التعليقات، إلى أن يصل المولّد إلى مستوى لا يستطيع فيه المميّز التفريق بين البيانات الاصطناعية والحقيقية.
يمكن استخدام شبكات GAN لتوليد صور اصطناعية لمهام رؤية الكمبيوتر وتصنيف الصور.
برامج التشفير التلقائي المتغيرة (VAEs) هي نماذج تعلم عميق تُستخدم لتوليد تنويعات من البيانات التي يتم تدريبها عليها. يقوم برنامج التشفير بضغط بيانات الإدخال في مساحة ذات أبعاد أقل، مما يساعد على استخلاص المعلومات المهمة من البيانات الأصلية. ثم تقوم وحدة فك التشفير بإعادة بناء بيانات جديدة من هذا التمثيل المضغوط. وكما هو الحال مع شبكات الخصومة التوليدية (GANs)، يمكن استخدام VAEs في توليد الصور.
تتميز نماذج المحولات، مثل المحولات التوليدية المدربة مسبقًا (GPTs)، بقدرتها الفائقة على فهم بنية الأنماط اللغوية. ويمكن استخدامها لتوليد بيانات نصية اصطناعية لتطبيقات معالجة اللغة الطبيعية أو لتوليد بيانات جدولية اصطناعية لمهام التصنيف أو الانحدار.
من المهم أخذ انهيار النموذج في الاعتبار، حيث ينخفض أداء النموذج عند تدريبه بشكل متكرر على بيانات تم توليدها بواسطة الذكاء الاصطناعي. لهذا السبب، من الضروري أن تستند عملية توليد البيانات الاصطناعية إلى بيانات حقيقية.
في InstructLab، على سبيل المثال، يعتمد توليد البيانات الاصطناعية على تصنيف هرمي يحدد المجال أو الموضوعات التي تنتمي إليها البيانات الأصلية. يضمن هذا النهج عدم ترك القرار للنموذج لتحديد البيانات التي يجب أن يتم تدريبه عليها.
يقول Srivastava "أنت لا تطلب من النموذج أن يستمر في حلقة متكررة تؤدي إلى الانهيار. نحن نتجنب تمامًا هذا الانهيار من خلال فصل النموذج عن عملية أخذ العينات.".
تعد البيانات عالية الجودة ضرورية لأداء النموذج. يمكن التحقق من جودة البيانات الاصطناعية باستخدام مقاييس تعتمد على الدقة والفائدة. تشير الدقة إلى مدى تطابق مجموعات البيانات الاصطناعية مع مجموعات البيانات الحقيقية. بينما تقيس الفائدة مدى قدرة البيانات الاصطناعية على تدريب نماذج التعلم العميق أو التعلم الآلي بكفاءة.
يتم قياس الدقة من خلال مقارنة البيانات الاصطناعية بالبيانات الأصلية، وذلك غالبًا باستخدام الأساليب الإحصائية والمرئيات مثل المخططات البيانية. يساعد ذلك في تحديد ما إذا كانت مجموعات البيانات التي تم توليدها تحافظ على الخصائص الإحصائية للبيانات الحقيقية، مثل التوزيع، والمتوسط، والوسيط، والمدى، والتباين، وغيرها.
يُعد تقييم التشابه الارتباطي من خلال معاملات الارتباط ومعاملات الارتباط الشرطية أمرًا ضروريًا لضمان الحفاظ على الاعتماديات والعلاقات بين نقاط البيانات، وتمثيل الأنماط الحقيقية بدقة. تتمتع الشبكات العصبية، والنماذج التوليدية، والنماذج اللغوية بقدرة عالية على اكتشاف العلاقات في البيانات الجدولية وبيانات السلاسل الزمنية.
يستلزم قياس الفائدة استخدام البيانات الاصطناعية كبيانات تدريب لنماذج التعلم الآلي، ثم مقارنة أداء النموذج عند التدريب بها مقابل التدريب باستخدام البيانات الحقيقية. فيما يلي بعض المقاييس الشائعة للمقارنة المعيارية:
الدقة تحسب نسبة التنبؤات الصحيحة إلى إجمالي التنبؤات.
يحدد الاستدعاء التنبؤات الصحيحة الفعلية.
تجمع درجة F1 الدقة والاستدعاء في مقياس واحد.
يُستخدم كل من مقياس Inception ومقياس مسافة Fréchet Inception (FID) لتقييم جودة الصور المولَّدة.
قد تكون أدوات أو مقدمو خدمات إنشاء البيانات الاصطناعية لديهم هذه المقاييس متاحة بالفعل، ولكن يمكنك أيضًا استخدام حزم تحليلات أخرى مثل SDMetrics (محتوى الرابط موجود خارج موقع ibm.com)، وهي مكتبة مفتوحة المصدر بلغة Python لتقييم البيانات الاصطناعية الجدولية.
لا يزال العنصر البشري ضروريًا عند التحقق من صحة البيانات الاصطناعية، ويمكن أن يكون الأمر بسيطًا مثل أخذ 5 إلى 10 عينات عشوائية من مجموعة البيانات الاصطناعية وتقييمها بنفسك. يقول Srivastava: "يجب أن يكون هناك تدخّل بشري في عملية التحقق. فهذه أنظمة معقدة للغاية، وكما هو الحال في أي نظام معقد، هناك العديد من النقاط الحساسة التي قد يحدث فيها خطأ. اعتمد على المقاييس، واستند إلى معايير الأداء، واختبر خط سير العمل بدقة، ولكن احرص دائمًا على أخذ بعض العينات العشوائية يدويًا للتحقق مما إذا كانت توفر لك نوعية البيانات التي تحتاجها."
تتمثل إحدى مزايا استخدام البيانات الاصطناعية في أنها لا تحتوي على بيانات حساسة أو معلومات تعريف شخصية (PII). ومع ذلك، يجب على المؤسسات التحقق من أن البيانات الجديدة التي تُنتجها تتوافق مع لوائح الخصوصية، مثل اللائحة العامة لحماية البيانات (GDPR) في الاتحاد الأوروبي أو قانون إخضاع التأمين الصحي لقابلية النقل والمساءلة في الولايات المتحدة (HIPAA).
تعامل مع البيانات الاصطناعية كما تتعامل مع البيانات المملوكة، وذلك من خلال تطبيق تدابير الأمان المدمجة وعناصر التحكم في الوصول لمنع عمليات الاختراق أو تسريب البيانات. كما يجب تطبيق إجراءات الحماية أثناء عملية التوليد للحد من خطر الهندسة العكسية للبيانات الاصطناعية وتتبعها إلى مكافئها في العالم الحقيقي، مما قد يؤدي إلى كشف معلومات حساسة أثناء تحليل البيانات. تشمل هذه الإجراءات الوقائية تقنيات مثل إخفاء البيانات الحساسة أو تمويهها، وإخفاء الهوية لإخفاء أو إزالة معلومات التعريف الشخصية أو الخصوصية التفاضلية لإضافة "ضوضاء" أو إدخال العشوائية إلى مجموعة البيانات.
يقول Srivastava: "على الأقل، يجب إخفاء معلومات التعريف الشخصية (PII) أو إزالتها، أو يمكنك اتخاذ خطوة إضافية واستخدام أساليب الخصوصية التفاضلية. تصبح هذه الإجراءات أكثر أهمية إذا كنت لا تستخدم نماذج محلية. وإذا كنت ترسل البيانات إلى مزوّد خدمة خارجي، فمن الضروري أن تكون أكثر حذرًا بشأن هذه الجوانب."
لاحظ أن البيانات الاصطناعية لا يمكن تحسينها عادةً في الوقت نفسه من حيث الدقة (Fidelity) والفائدة (Utility) والخصوصية—حيث يوجد دائمًا نوع من الموازنة بين هذه العوامل. فقد يؤدي التمويه (Masking) أو إخفاء الهوية (Anonymization) إلى تقليل الفائدة إلى حد ما، بينما قد تتسبب الخصوصية التفاضلية في انخفاض طفيف في الدقة. ومع ذلك، فإن عدم تنفيذ أي تدابير لحماية الخصوصية قد يعرض معلومات التعريف الشخصية (PII) للخطر. لذلك، يجب على المؤسسات الموازنة بين هذه العوامل وتحديد أولوياتها بناءً على حالات الاستخدام الخاصة بها.
احتفظ بسجل لعملية إنشاء البيانات الاصطناعية، يشمل مهام سير العمل مثل استراتيجيات تنظيف وإعداد مجموعات البيانات الأصلية، والآليات المستخدمة في توليد البيانات مع ضمان حماية الخصوصية، ونتائج التحقق. تأكد من توثيق مبررات اختياراتك وقراراتك لتعزيز المساءلة والشفافية.
توثيق العملية له أهمية خاصة عند إجراء مراجعات دورية لعملية توليد البيانات الاصطناعية. فهذه السجلات تعمل كمسارات تدقيق يمكن الاستفادة منها في تقييم فعالية مهام سير العمل وقابليتها لإعادة التوليد.
راقب بانتظام كيفية استخدام البيانات الاصطناعية وأدائها لتحديد أي سلوكيات غير متوقعة قد تظهر أو فرص للتحسين. قم بتعديل وتحسين عملية التوليد حسب الحاجة لضمان جودة البيانات وفعاليتها.
تمامًا كما تُشكّل الألياف أساس الأقمشة، تُعد البيانات حجر الأساس في نماذج الذكاء الاصطناعي. ورغم أن توليد البيانات الاصطناعية لا يزال في مراحله المبكرة، فإن التطورات في عمليات التوليد يمكن أن تسهم في تحسين جودة البيانات الاصطناعية وموثوقيتها وفائدتها، لتصل في المستقبل إلى مستوى يماثل البيانات الحقيقية، تمامًا كما اقتربت الألياف الاصطناعية من نظيراتها الطبيعية.
1 3 Bold and Actionable Predictions for the Future of GenAI (link resides outside ibm.com), Gartner, 12 April 2024