ما المقصود بالتعلم العميق؟

17 يونيو 2024

المؤلفين

Mark Scapicchio

Content Director of Inbound and SEO for IBM.com

ما المقصود بالتعلم العميق؟

التعلم العميق هو فرع من فروع التعلم الآلي يستخدم الشبكات العصبية متعددة الطبقات، والتي تسمى الشبكات العصبية العميقة، بهدف محاكاة قدرة الدماغ البشري المعقدة على اتخاذ القرارات. تعتمد معظم تطبيقات الذكاء الاصطناعي المستخدمة في حياتنا حاليًا على بعض نماذج التعلم العميق.

يتمثل وجه الاختلاف الرئيسي بين التعلم العميق والتعلم الآلي في بنية الشبكة العصبية الأساسية. تستخدم نماذج التعلم الآلي التقليدية، والتي تسمى "غير العميقة"، شبكات عصبية بسيطة تحتوي على طبقة أو طبقتين حاسوبيتين. تستخدم نماذج التعلُّم العميق ثلاث طبقات أو أكثر - ولكن في الأغلب تستخدم مئات أو آلاف الطبقات - لتدريب النماذج.

بينما تتطلب نماذج التعلّم الموجّه بيانات إدخال منظمة ومصنفة لإنتاج مخرجات دقيقة، يمكن أن تستخدم نماذج التعلم العميق التعلّم غير الموجّه. وبفضل التعلّم غير الموجّه، يمكن أن تستخرج نماذج التعلم العميق الخصائص والمزايا والعلاقات التي تحتاجها لإنتاج مخرجات دقيقة من البيانات غير المنسقة وغير المنظمة. بالإضافة إلى ذلك، يمكن أن تُقيّم هذه النماذج مخرجاتها وتحسنها لزيادة الدقة.

يُعد التعلم العميق أحد جوانب علوم البيانات والذي بدوره يدعم العديد من التطبيقات والخدمات التي تعمل على تحسين الأتمتة، وأداء المهام التحليلية والبدنية من دون تدخل بشري. وهذا من شأنه أن يتيح العديد من المنتجات والخدمات اليومية - مثل المساعدين الرقميين، وأجهزة التحكم في التلفاز عن بُعد بالصوت، والكشف عن العمليات الاحتيالية المتعلقة ببطاقات الائتمان، والسيارات ذاتية القيادة، والذكاء الاصطناعي التوليدي.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيف يعمل التعلم العميق

تحاول الشبكات العصبية، أو الشبكات العصبية الاصطناعية، محاكاة الدماغ البشري من خلال الجمع بين مدخلات البيانات والأوزان والتحيزات—والتي تعمل جميعها كخلايا عصبية سيليكونية. تعمل هذه العناصر معًا حتى تتعرف على الكائنات الموجودة داخل البيانات وتصنفها وتصفها بدقة.

تتكون الشبكات العصبية العميقة من طبقات متعددة من العُقد المترابطة، كل منها يعتمد على الطبقة التي تسبقه بهدف تعزيز عملية التنبؤ أو التصنيف وتحسينها. يُطلق على هذا التسلسل في العمليات الحسابية عبر الشبكة اسم الانتشار الأمامي. تُسمى طبقات الإدخال والإخراج بالشبكة العصبية العميقة بالطبقات الظاهرة. في طبقة الإدخال، يجمع نموذج التعلم العميق البيانات من أجل معالجتها، وفي طبقة الإخراج، تُجرى عملية التنبؤ أو التصنيف النهائية.

تستخدم عملية أخرى تُدعى الانتشار العكسي الخوارزميات، مثل التدرج الاشتقاقي، لحساب الأخطاء في عمليات التنبؤ، ثم تضبط أوزان الدالة وانحيازاتها بالرجوع عبر الطبقات من أجل تدريب النموذج. وتُمكّن كل من عمليتي الانتشار الأمامي والانتشار العكسي الشبكة العصبية من إجراء عمليات تنبؤ وتصحيح أي أخطاء. وبمرور الوقت، تصبح الخوارزمية أكثر دقة تدريجيًا.

يتطلب التعلم العميق قدرًا هائلاً من القدرة الحاسوبية. وتُعد وحدات معالجة الرسومات (GPU) فائقة الأداء مثالية لأنها تتمكن من التعامل مع كم كبير من العمليات الحسابية في أنوية متعددة مع توفير مساحات كبيرة من الذاكرة. وقد تساعد الحوسبة السحابية الموزعة كذلك في هذا الأمر. يُعد هذا المستوى من القدرة الحاسوبية ضروريًا لتدريب الخوارزميات العميقة من خلال التعلم العميق. ومع ذلك، فإن إدارة وحدات معالجة رسومات محلية متعددة يمكن أن تتسبب في زيادة الطلب على الموارد الداخلية ويكون توسيع نطاقها أمرًا مكلفًا للغاية. بالنسبة إلى المتطلبات البرمجية، تُبرمج أغلب تطبيقات التعلم العميق باستخدام إطار من أُطر التعلم الثلاثة: JAX أو PyTorch أو TensorFlow.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

أنواع نماذج التعلم العميق

تُعد خوارزميات التعلم العميق معقدة للغاية، وتوجد أنواع مختلفة من الشبكات العصبية تعمل على معالجة مشاكل أو مجموعات بيانات محددة. إليك ستة منها. لكل منها مزاياها الخاصة وهي معروضة هنا تقريبًا حسب ترتيب تطورها، حيث يُضبط كل نموذج لاحق بحيث يتغلب على نقاط الضعف في النموذج السابق.

ومن نقاط الضعف المحتملة المشتركة بين جميع نماذج التعلم العميق هي أنها غالبًا ما تكون "صناديق سوداء"، ما يُصعب فهم طريقة عملها الداخلية ويطرح تحديات في إمكانية تفسيرها. ولكن يمكن تجاوز ذلك بالنظر إلى مزايا الدقة الفائقة وقابلية التوسع بشكل عام.

الشبكات العصبية التلافيفية (CNNs)

تُستخدم الشبكات العصبية الترشيحية (CNNs أو ConvNets) بشكل أساسي في تطبيقات الرؤية الحاسوبية وتصنيف الصور. ويمكنها تحديد المزايا والأنماط الموجودة في الصور ومقاطع الفيديو، ما يُسهل مهامَّ مثل الكشف عن الكائنات والتعرف على الصور والتعرف على الأنماط والتعرف على الوجوه. تعتمد هذه الشبكات على مبادئ الجبر الخطي، وخاصةً ضرب المصفوفات، لتحديد الأنماط داخل الصور.

تُعد الشبكات العصبية الترشيحية نوعًا محددًا من أنواع الشبكات العصبية، والتي تتكون من طبقات العُقد، منها طبقة إدخال وطبقة مخفية واحدة أو أكثر وطبقة إخراج. كل عقدة تتصل بأخرى ويكون لها وزن وحد خاصان بها. إذا كان ناتج أي عقدة فردية أعلى من قيمة الحد المحدد، تُنشط تلك العقدة، وتُرسل البيانات إلى الطبقة التالية من الشبكة. وإلا فلن تمر أي بيانات إلى الطبقة التالية من الشبكة.

تتكون الشبكات العصبية الترشيحية من ثلاثة أنواع رئيسية على الأقل من الطبقات: طبقة ترشيحية، وطبقة تجميع، وطبقة متصلة كليًا (FC). وفي حالات الاستخدام المعقدة، قد تحتوي الشبكة العصبية الترشيحية على آلاف الطبقات، حيث تُبنى كل طبقة على الطبقات السابقة. من خلال "الترشيح"—أي العمل مرارًا وتكرارًا على المدخلات الأصلية—يمكن اكتشاف أنماط مفصلة. مع كل طبقة، تزداد الشبكة العصبية الترشيحية تعقيدًا، وتُحدد أجزاءً أكبر من الصور. تركز الطبقات السابقة على المزايا البسيطة، مثل الألوان والحواف. مع تقدم بيانات الصور عبر طبقات الشبكة العصبية الترشيحية، تبدأ في التعرف على عناصر أو أشكال أكبر للكائنات حتى تتعرف في النهاية على الكائن المقصود.

تتميّز الشبكات العصبية الترشيحية (CNNs) عن الشبكات العصبية الأخرى بأدائها الفائق مع مدخلات الصور أو الإشارات الكلامية أو الصوتية. قبل ظهور الشبكات العصبية الترشيحية، كانت تستخدم طرق استخراج المزايا اليدوية والمستهلكة للوقت لتحديد الكائنات في الصور. ومع ذلك، توفر الشبكات العصبية الترشيحية الآن نهجًا أكثر قابلية للتطوير في مهام تصنيف الصور والتعرف على الكائنات، وتعالج البيانات فائقة الأبعاد. ويمكن أن تُبدل الشبكات العصبية الترشيحية البيانات بين الطبقات، من أجل تعزيز كفاءة معالجة البيانات. وعلى الرغم من أنه قد يحدث فقدان للمعلومات في طبقة التجميع، إلا إن هذا يمكن التغاضي عنه بالنظر إلى مزايا الشبكات العصبية الترشيحية، والتي يمكن أن تساعد على تقليل التعقيد وتحسين الكفاءة والحد من مخاطر الإفراط في التخصيص.

ثمة عيوب أخرى للشبكات العصبية الترشيحية، وهي أنها تتطلب وقتًا وميزانية كبيرة من الناحية الحاسوبية، وتتطلب العديد من وحدات معالجة الرسومات (GPUs). كما أنها تتطلب أيضًا خبراء مدربين على أعلى مستوى ولديهم معرفة شاملة بمجالات متعددة، واختبارًا دقيقًا للتكوينات والمعلمات الفائقة.

الشبكات العصبية المتكررة (RNNs)

تُستخدم الشبكات العصبية التكرارية (RNNs) عادةً في تطبيقات التعرف على الكلام واللغة الطبيعية لأنها تستخدم بيانات متسلسلة أو زمنية. يمكن التعرف على الشبكات العصبية التكرارية من خلال حلقات إعادة التغذية. تُستخدم خوارزميات التعلم هذه بشكل أساسي عند استخدام بيانات السلاسل الزمنية لإجراء عمليات تنبؤ بشأن النتائج المستقبلية. تتضمن حالات الاستخدام إجراء تنبؤات البورصة أو توقعات المبيعات، أو حل المشكلات الترتيبية أو الزمنية، مثل ترجمة اللغات، ومعالجة اللغة الطبيعية (NLP)، والتعرف على الكلام، ووضع تعليقات توضيحية على الصور. غالبًا ما تُدمج هذه الوظائف في التطبيقات الشهيرة مثل Siri والبحث الصوتي وترجمة Google.

تستخدم الشبكات العصبية التكرارية "ذاكرتها" حيث تستمد المعلومات من المدخلات السابقة من أجل التأثير في المدخلات والمخرجات الحالية. وبينما تفترض الشبكات العصبية العميقة التقليدية أن المدخلات والمخرجات مستقلة عن بعضها، إلا إن مخرجات الشبكات العصبية التكرارية تعتمد على العناصر السابقة في التسلسل. وفي حين أن الأحداث المستقبلية قد تكون مفيدة أيضًا في تحديد مخرجات تسلسل معين، إلا إن الشبكات العصبية التكرارية أحادية الاتجاه لا يمكنها أن تأخذ هذه الأحداث في الحسبان في أثناء إجراء عمليات التنبؤ.

تشارك الشبكات العصبية التكرارية المعلمات عبر كل طبقة من طبقات الشبكة وتشارك معلمة الوزن نفسها داخل كل طبقة من طبقات الشبكة، مع ضبط الأوزان من خلال عمليتي الانتشار العكسي والتدرج الاشتقاقي بهدف تسهيل عملية التعلم التعزيزي.

تستخدم الشبكات العصبية التكرارية خوارزمية الانتشار العكسي عبر الزمن (BPTT) لتحديد المشتقات، والتي تختلف قليلاً عن الانتشار العكسي التقليدي حيث إنها خاصة بالبيانات المتسلسلة. مبادئ الانتشار العكسي عبر الزمن هي مبادئ الانتشار العكسي التقليدية نفسها، حيث يُدرب النموذج نفسه عن طريق حساب الأخطاء من طبقة الإخراج إلى طبقة الإدخال. يختلف الانتشار العكسي عبر الزمن عن النهج التقليدي في أن الانتشار العكسي عبر الزمن يجمع الأخطاء في كل فاصل زمني، في حين أن شبكات التغذية الأمامية لا تحتاج إلى جمع الأخطاء لأنها لا تُشارك المعلمات عبر كل طبقة.

ومن المميزات التي تتفوق بها على أنواع الشبكات العصبية الأخرى أن الشبكات العصبية التكرارية تستخدم كلاً من معالجة البيانات الثنائية والذاكرة. يمكن أن تحدد الشبكات العصبية التكرارية مدخلات وإنتاجات متعددة بحيث إنه بدلاً من تقديم نتيجة واحدة فقط لمدخل واحد، يمكن أن تنتج الشبكات العصبية التكرارية مخرجات من واحد إلى متعدد أو من واحد إلى واحد أو من متعدد إلى متعدد.

توجد أيضًا خيارات داخل الشبكات العصبية التكرارية. على سبيل المثال، تتفوق شبكة الذاكرة قصيرة المدى المطولة (LSTM) على الشبكات العصبية التكرارية البسيطة من حيث التعلم والتعامل مع الارتباطات طويلة المدى.

ومع ذلك، تناسب الشبكات العصبية التكرارية مواجهة مشكلتين أساسيتين، تُعرفان باسم المشتقات المتفجرة والمشتقات المتلاشية. تُحدد هاتان المشكلتان على حسب حجم المشتقة، وهو ميل دالة الخسارة على طول منحنى الخطأ.

  • عندما تكون المشتقة متلاشية وصغيرة جدًا، فإنها تواصل الصغر، ما يؤدي إلى تحديث معاملات الوزن حتى تصبح غير مهمة - أي: صفر (0). عندما يحدث ذلك، تتوقف الخوارزمية عن التعلم.
  • تظهر المشتقات المتفجرة عندما تكون المشتقة كبيرة جدًا، ما يؤدي إلى إنشاء نموذج غير مستقر. في هذه الحالة، تزداد أوزان النموذج بشكل كبير جدًا، وستُمثل في النهاية على أنها NaN (أي ليست رقمًا). ويتمثل أحد الحلول لهذه المشكلات في تقليل عدد الطبقات المخفية داخل الشبكة العصبية، ما يؤدي إلى التخلص من بعض التعقيدات في نماذج الشبكات العصبية التكرارية.

بعض العيوب الأخرى: قد تتطلب الشبكات العصبية التكرارية أيضًا وقت تدريب طويلاً ويصعب استخدامها مع مجموعات البيانات الكبيرة. ويؤدي تحسين الشبكات العصبية التكرارية إلى زيادة التعقيد كلما زاد عدد الطبقات والمعلمات.

برامج التشفير التلقائي وبرامج التشفير التلقائي المتغيرة

أصبح التعلم العميق يتيح إمكانية تجاوز تحليل البيانات الرقمية، من خلال إضافة تحليل الصور والكلام وأنواع البيانات المعقدة الأخرى. ومن أولى النماذج التي نجحت في تحقيق هذا الهدف كانت نماذج التشفير التلقائي المتغيرة (VAEs). فقد كانت أولى نماذج التعلم العميق المستخدمة على نطاق واسع بهدف إنتاج صور وكلام واقعيين، ما عزز النمذجة التوليدية العميقة من خلال جعل النماذج أسهل في التوسع - وهذا هو الأساس الذي تقوم عليه فكرة الذكاء الاصطناعي التوليدي.

تعمل نماذج التشفير التلقائي عن طريق تشفير البيانات غير المصنفة في تمثيل مضغوط، ثم فك تشفير البيانات مرة أخرى وإرجاعها إلى شكلها الأصلي. كانت نماذج التشفير التلقائي العادية تُستخدم لأغراض متنوعة، بما في ذلك إعادة بناء الصور المشوهة أو الباهتة. أضافت نماذج التشفير التلقائي المتغيرة الإمكانات الحاسمة التي من شأنها ليس فقط إعادة بناء البيانات، ولكن أيضًا إنشاء نماذج مختلفة من البيانات الأصلية.

عززت إمكانات إنتاج البيانات الجديدة هذه ظهور مجموعة من التقنيات الجديدة بسرعة، بدءًا من الشبكات التوليدية التنافسية (GANs) وحتى نماذج الانتشار، والتي تتمكن من إنتاج صور أكثر واقعية—ولكنها مزيفة. وبهذه الطريقة، مهدت نماذج التشفير التلقائي المتغيرة الطريق للذكاء الاصطناعي التوليدي في الوقت الحالي.

تُنشأ نماذج التشفير التلقائي من مجموعة من نماذج التشفير وفك التشفير، وهي بنية تدعم أيضًا النماذج اللغوية الكبرى في الوقت الحالي. تعمل نماذج التشفير على ضغط مجموعة البيانات في تمثيل مكثف، بحيث تكون نقاط البيانات المتشابهة بالقرب من بعضها في فضاء مُجرد. تأخذ نماذج فك التشفير عينات عشوائية من هذا الفضاء لإنشاء شيء جديد مع الحفاظ على أهم مزايا مجموعة البيانات.

تتمثل الميزة الأكبر لنماذج التشفير التلقائي في القدرة على التعامل مع مجموعات كبيرة من البيانات وعرض بيانات الإدخال في شكل مضغوط، بحيث تبرز الجوانب الأكثر أهمية—ما يعزز مهام الكشف عن الحالات الشاذة والتصنيف. كما يعمل هذا أيضًا على تسريع عملية النقل وتقليل متطلبات التخزين. يمكن تدريب نماذج التشفير التلقائي على البيانات غير المصنفة بحيث يمكن استخدامها في حال عدم توافر البيانات المصنفة. عند استخدام التدريب غير الموجّه، توجد ميزة توفير الوقت: تتعلم خوارزميات التعلم العميق تلقائيًا وتكتسب الدقة من دون الحاجة إلى هندسة المزايا اليدوية. بالإضافة إلى ذلك، يمكن أن تنتج نماذج التشفير التلقائي المتغيرة بيانات جديدة بهدف إنشاء نص أو صورة.

توجد عيوب لنماذج التشفير التلقائي. يمكن أن يستنزف تدريب البُنى العميقة أو المعقدة الموارد الحاسوبية. وفي أثناء التدريب غير الموجّه، قد يغفل النموذج عن الخصائص المطلوبة وبدلاً من ذلك يكرر البيانات المدخلة. وقد تتغاضى نماذج التشفير التلقائي أيضًا عن روابط البيانات المعقدة في البيانات المنظمة بحيث لا تحدد العلاقات المعقدة بشكل صحيح.

الشبكات التنافسية التوليدية (GANs)

الشبكات التوليدية التنافسية (GANs) هي شبكات عصبية تُستخدم داخل الذكاء الاصطناعي (AI) وخارجه لإنشاء بيانات جديدة تشبه بيانات التدريب الأصلية. ويمكن أن تشمل الصور التي تبدو وكأنها وجوه بشرية - ولكنها مُنشأة، وليست ملتقطة لأشخاص حقيقيين. يأتي جزء "التنافسية" في الاسم من الذهاب والإياب بين جزأين من الشبكات التوليدية التنافسية: المولد والمميز.

  • يُنشئ المولد شيئًا ما: صورًا أو مقاطع فيديو أو مقاطع صوتية ثم يُنتج مُخرَجًا مع إضفاء لمسة خاصة. على سبيل المثال، يمكن أن يُحول الحصان إلى حمار وحشي بدرجة معينة من الدقة. وتعتمد النتيجة على المُدخل ومستوى تدريب الطبقات في النموذج التوليدي على حالة الاستخدام هذه.
  • المميز هو المنافس، حيث تُقارن النتيجة التوليدية (الصورة المزيفة) بالصور الحقيقية الموجودة في مجموعة البيانات. يحاول المميّز التمييز بين الصور أو مقاطع الفيديو أو المقاطع الصوتية الحقيقية والمزيفة.

تُدرب الشبكات التوليدية التنافسية نفسها. يُنشئ المولِّد نماذج مزيفة بينما يتعلم المُميِّز اكتشاف أوجه الاختلاف بين نماذج المولِّد المزيفة والحقيقية. عندما يتمكن المُميِّز من تحديد النموذج المزيّف، يُعاقَب المولِّد. تستمر حلقة إعادة التغذية حتى ينجح المولِّد في إنتاج مخرجات لا يمكن للمُميِّز تمييزها.

تتمثل الميزة الرئيسية للشبكات التوليدية التنافسية في إنشاء مخرجات واقعية قد يصعب تمييزها عن الأصلية، والتي بدورها يمكن استخدامها بهدف تعزيز تدريب نماذج التعلم الآلي. يُعد إعداد شبكة توليدية تنافسية للتعلم أمرًا بسيطًا، حيث تُدرب باستخدام بيانات غير مصنفة أو مصنفة تصنيفًا بسيطًا. ومع ذلك، فإن العيب المحتمل هو أن المولِّد والمُميِّز قد يتنافسان لفترة طويلة، ما يؤدي إلى استنزاف موارد النظام بشكل كبير. ومن عيوب التدريب أنه قد يلزم وجود كمية هائلة من بيانات الإدخال للحصول على مخرجات مرضية. ثمة مشكلة أخرى محتملة وهي "انهيار الوضع"، عندما ينتج المولد مجموعة محدودة من المخرجات بدلاً من مجموعة متنوعة أوسع.

نماذج الانتشار

نماذج الانتشار هي نماذج توليدية تُدرب باستخدام عملية الانتشار الأمامي والعكسي للإضافة التدريجية للضوضاء وإزالتها. تُنتج نماذج الانتشار بيانات - غالبًا ما تكون صورًا - مشابهة للبيانات المدربة عليها، ولكنها بعد ذلك تحل محل البيانات المستخدمة لتدريبها. وتُضيف الضوضاء الغوسية إلى بيانات التدريب تدريجيًا حتى لا يمكن تمييزها، ثم تتعلم العملية العكسية "إزالة الضوضاء" التي يمكن بها إنشاء المخرجات (عادةً ما تكون صورًا) من مدخلات الضوضاء العشوائية.

يتعلم نموذج الانتشار تقليل أوجه الاختلاف بين العينات المُولَّدة والهدف المطلوب. تُحدد أوجه الاختلاف وتُحدّث معلمات النموذج لتقليل الخسارة—بهدف تدريب النموذج لإنتاج عينات تشبه بشكل وثيق بيانات التدريب الأصلية.

بالإضافة إلى جودة الصورة، تمتاز نماذج الانتشار بأنها لا تتطلب تدريبًا تنافسيًا، ما يسرّع عملية التعلّم ويوفر أيضًا تحكمًا وثيقًا في العملية. ويُعد التدريب أكثر استقرارًا مقارنةً بالشبكات التوليدية التنافسية (GANs)، ونماذج الانتشار أقل عرضة لانهيار الوضع.

ومع ذلك، مقارنةً بالشبكات التوليدية التنافسية، يمكن أن تتطلب نماذج الانتشار المزيد من الموارد الحاسوبية للتدريب، بما في ذلك المزيد من الضبط الدقيق. اكتشفت IBM Research® أيضًا أن هذا الشكل من أشكال الذكاء الاصطناعي التوليدي يمكن اختراقه من خلال ثغرات أمنية خفية، ما يُمكّن المهاجمين من السيطرة على عملية إنشاء الصور بحيث يمكن خداع نماذج الانتشار المدعومة بالذكاء الاصطناعي لإنشاء صور متلاعب بها.

نماذج المحولات

تجمع نماذج المحولات بين بنية التشفير وفك التشفير وآلية معالجة النصوص وقد أحدثت ثورة في كيفية تدريب النماذج اللغوية. يعمل نموذج التشفير على تحويل النص غير المنسق وغير المصنف إلى تمثيلات تعرف باسم التضمينات. يأخذ نموذج فك التشفير هذه التضمينات مع المخرجات السابقة للنموذج، ويتنبأ تباعًا بكل كلمة في الجملة.

باستخدام تخمين ملء الفراغات، يتعلم نموذج التشفير كيفية ربط الكلمات والجمل ببعضها، ما يؤدي إلى إنشاء تمثيل فائق للغة من دون الحاجة إلى تصنيف أجزاء من الكلام والخصائص النحوية الأخرى. في الواقع، يمكن تدريب المحولات مسبقًا منذ البداية من دون تحديد مهمة معينة. بعد تعلم هذه التمثيلات الفائقة، يمكن تخصيص النماذج لاحقًا – باستخدام بيانات أقل بكثير - لأداء مهمة مطلوبة.

تجعل العديد من عمليات الابتكار هذا الأمر ممكنًا. تعالج المحولات الكلمات في الجملة في وقت واحد، ما يتيح معالجة النصوص بالتوازي، ومن ثَم يسَرِّع التدريب. كانت التقنيات السابقة، بما في ذلك الشبكات العصبية التكرارية (RNNs)، تعالج الكلمات واحدة تلو الأخرى. كما تعلمت المحولات أيضًا مواضع الكلمات وعلاقاتها—وهذا السياق يساعدها على استنتاج المعنى وإزالة غموض الكلمات مثل معرفة إلام يعود الضمير "هو" في الجمل الطويلة.

وبفضل إلغاء ضرورة تحديد مهمة مسبقًا، جعلت المحولات من الممكن تدريب النماذج اللغوية على كميات هائلة من النصوص غير المنسقة، ما مكّنها من النمو بشكل كبير في الحجم. في الماضي، كانت البيانات المصنفة تُجمع لتدريب نموذج واحد على مهمة محددة. وبفضل المحولات، أصبح بالإمكان ضبط نموذج واحد مدرب على كمية هائلة من البيانات ليتناسب مع مهام متعددة من خلال ضبطه الدقيق على كمية صغيرة من البيانات المصنفة الخاصة بمهمة محددة.

تُستخدم محولات اللغة حاليًا في المهام غير التوليدية مثل التصنيف واستخراج الكيانات بالإضافة إلى المهام التوليدية بما في ذلك الترجمة الآلية والتلخيص والإجابة عن الأسئلة. وقد أدهشت المحولات العديد من الأشخاص بقدرتها على إنشاء حوارات ومقالات ومحتويات أخرى مقنعة.

تُظهر محوّلات معالجة اللغة الطبيعية (NLP) إمكانات ملحوظة نظرًا إلى أنها يمكن أن تعمل بالتوازي، حيث تعالج أجزاءً متعددة من التسلسل في وقت واحد، ما يسرّع التدريب بشكل كبير. كما تتبع المحولات أيضًا الارتباطات طويلة المدى في النص، ما يُمكّنها من فهم السياق العام بشكل أوضح وإنشاء مخرجات فائقة. بالإضافة إلى ذلك، تُعد المحولات أكثر قابلية للتوسع وأكثر مرونة من حيث التخصيص حسب المهمة.

أما بالنسبة إلى أوجه القصور، فبسبب تعقيدها، تتطلب المحولات موارد حاسوبية هائلة ووقت تدريب طويلاً. وأيضًا، ينبغي أن تكون بيانات التدريب دقيقة ومحددة وغير متحيزة ووفيرة من أجل توفير نتائج دقيقة.

حالات استخدام التعلم العميق

يتزايد عدد حالات استخدام التعلم العميق كل يوم. وفيما يلي بعض الطرق التي يساعد بها التعلم العميق الشركات في الوقت الحالي على أن تصبح أكثر كفاءة وتقدم خدمات أفضل لعملائها.

تحديث التطبيقات

يمكن أن يعزز الذكاء الاصطناعي التوليدي إمكانات المطورين ويُقلص فجوة المهارات المتزايدة في مجالات تحديث التطبيقات وأتمتة تقنية المعلومات. أصبح الذكاء الاصطناعي التوليدي للتشفير ممكنًا بفضل التطورات الأخيرة في تقنيات النماذج اللغوية الكبرى (LLM) ومعالجة اللغة الطبيعية (NLP). ويستخدم خوارزميات التعلم العميق والشبكات العصبية الكبيرة المدربة على مجموعات بيانات هائلة من التعليمات البرمجية المصدرية الموجودة. عادةً ما تأتي التعليمات البرمجية المستخدمة في التدريب من تعليمات برمجية متاحة للجمهور منتجة من المشاريع مفتوحة المصدر.

يمكن أن يُدخل المبرمجون تعليمات نصية عادية تصف ما يريدون أن تفعله التعليمات البرمجية. تعرض أدوات الذكاء الاصطناعي التوليدي أجزاءً صغيرة من التعليمات البرمجية أو دوال كاملة، ما يعمل على تبسيط عملية التشفير من خلال التعامل مع المهام المتكررة والحد من البرمجة اليدوية. كما يمكن أن يُترجم الذكاء الاصطناعي التوليدي التعليمات البرمجية من لغة إلى أخرى، ما يؤدي إلى تبسيط عملية تحويل التعليمات البرمجية أو مشاريع التحديث، مثل تحديث التطبيقات القديمة عن طريق تحويل لغة COBOL إلى لغة Java.

رؤية الكمبيوتر

الرؤية الحاسوبية هي مجال من مجالات الذكاء الاصطناعي (AI) يتضمن تصنيف الصور والكشف عن الكائنات والتجزئة الدلالية. ويُستخدم التعلم الآلي والشبكات العصبية لتعليم أجهزة الكمبيوتر وأنظمة التعلم كيفية استخلاص معلومات ذات مغزى من الصور الرقمية ومقاطع الفيديو وغيرها من المدخلات المرئية — وكيفية تقديم توصيات أو اتخاذ إجراءات عندما يرصد النظام عيوبًا أو مشكلات. إذا كان الذكاء الاصطناعي يُمكّن أجهزة الكمبيوتر من التفكير، فإن الرؤية الحاسوبية تساعدها على الرؤية والملاحظة والفهم.

نظرًا إلى أن نظام الرؤية الحاسوبية غالبًا ما يُدرب على فحص المنتجات أو مراقبة أصول الإنتاج، فإنه عادةً ما يمكنه تحليل آلاف المنتجات أو العمليات في الدقيقة الواحدة، مع ملاحظة العيوب أو المشكلات غير الملحوظة. تُستخدم الرؤية الحاسوبية في مجالات مختلفة من الطاقة ومرافق الخدمات وحتى التصنيع والسيارات.

تحتاج الرؤية الحاسوبية إلى الكثير من البيانات، ثم تُجري عمليات تحليل لتلك البيانات مرارًا وتكرارًا حتى تُميز الصور وتتعرف عليها في النهاية. على سبيل المثال، من أجل تدريب جهاز كمبيوتر على التعرف على إطارات السيارات، لا بد من تغذيته بكميات هائلة من صور الإطارات والعناصر المتعلقة بالإطارات لتعلم أوجه الاختلاف والتعرف على الإطار، خاصةً الإطار الخالي من العيوب.

تستخدم الرؤية الحاسوبية نماذج خوارزمية لتمكين جهاز الكمبيوتر من تدريب نفسه على سياق البيانات المرئية. وعند تغذية النموذج بكمية كافية من البيانات، فسوف "ينظر" الكمبيوتر إلى البيانات ويُعلّم نفسه كيفية تمييز صورة عن أخرى. تُمكّن الخوارزميات الآلة من التعلّم ذاتيًا، بدلاً من أن يتولى شخص ما مسؤولية برمجتها بحيث تتعرف على الصورة.

تساعد الرؤية الحاسوبية الأنظمة على استخلاص معلومات ذات مغزى من الصور الرقمية ومقاطع الفيديو وغيرها من المدخلات المرئية، واتخاذ الإجراءات اللازمة بناءً على تلك المدخلات. وتميزها هذه القدرة على تقديم التوصيات عن مهام التعرف على الصور البسيطة. تظهر بعض التطبيقات الشائعة للرؤية الحاسوبية في الوقت الحالي فيما يلي:

  • مجال السيارات: في حين أن عصر السيارات ذاتية القيادة لم يحل بالكامل بعد، إلا إن التقنية الأساسية التي تقوم عليها بدأت تشق طريقها في عالم السيارات، ما أدى إلى تعزيز الحفاظ على سلامة السائق والركاب من خلال مزايا مثل كشف خطوط المسار.

  • مجال الرعاية الصحية: دُمجت الرؤية الحاسوبية في تقنية الأشعة، ما يُمكّن الأطباء من تحديد الأورام السرطانية في الأنسجة السليمة بشكل أفضل.

  • مجال التسويق: تُقدم منصات التواصل الاجتماعي اقتراحات حول من قد يكون في صورة منشورة على الملف الشخصي، ما يُسهل الإشارة إلى الأصدقاء في ألبومات الصور.

  • مجال البيع بالتجزئة: دُمج البحث المرئي في بعض منصات التجارة الإلكترونية، ما يسمح للعلامات التجارية بالتوصية بالعناصر التي من شأنها أن تُكمل خزانة الملابس الحالية.

خدمة العملاء

يساعد الذكاء الاصطناعي الشركات على فهم وتلبية متطلبات المستهلكين المتزايدة بشكل أفضل. ومع ظهور التسوق الإلكتروني المخصص للغاية، ونماذج البيع مباشرةً إلى المستهلك، وخدمات التوصيل، يمكن أن يساعد الذكاء الاصطناعي التوليدي على تحقيق مجموعة من المزايا التي يمكن أن تُحسّن خدمة العملاء وتُطور المواهب وتُعزز أداء التطبيقات.

يعمل الذكاء الاصطناعي على تمكين الشركات من تبني نهج يركز على العملاء من خلال توفير معارف قيّمة مكتسبة من تعليقات العملاء وعادات الشراء. يمكن أن يساعد هذا النهج القائم على البيانات على تحسين تصميم المنتجات وتعبئتها ويمكن أن يساعد على تعزيز معدل رضا العملاء وزيادة المبيعات.

كما يمكن أن يكون الذكاء الاصطناعي التوليدي بمثابة مساعد معرفي لخدمة العملاء، حيث يوفر إرشادات سياقية تستند إلى سجل المحادثات وتحليل المشاعر ونصوص مراكز الاتصالات. كما يمكن أن يساعد الذكاء الاصطناعي التوليدي على توفير تجارب تسوق مخصصة، وتعزيز ولاء العملاء، وتحقيق ميزة تنافسية.

العمل الرقمي

يمكن أن تدعم المؤسسات القوى العاملة لديها من خلال تطوير أتمتة العمليات الآلية (RPA) والعمالة الرقمية ونشرها بهدف التعاون مع البشر لزيادة الإنتاجية، أو المساعدة عندما يكون هناك حاجة إلى الدعم. على سبيل المثال، يمكن أن يساعد هذا المطورين على تسريع عملية تحديث البرامج القديمة.

يستخدم العمل الرقمي نماذج الأساس لأتمتة وتحسين إنتاجية العاملين في مجال المعرفة من خلال تمكين الأتمتة الذاتية بطريقة سريعة وموثوقة —دون عوائق تقنية. لأتمتة أداء المهام أو استدعاء واجهات برمجة التطبيقات، يمكن لنموذج ملء الفراغات المستند إلى النماذج اللغوية الكبيرة (LLM) على مستوى المؤسسة تحديد المعلومات في المحادثة وجمع جميع المعلومات المطلوبة لإكمال إجراء أو استدعاء واجهة برمجة التطبيقات دون الكثير من الجهد اليدوي.

بدلاً من أن يُسجل الخبراء التقنيون تدفقات الإجراءات المتكررة ويُشفروها للعاملين في مجال المعرفة، يمكن أن يستخدم عامل المعرفة عمليات أتمتة العمالة الرقمية القائمة على تعليمات وعروض توضيحية للمحادثة مدعومة بنماذج من أجل أتمتة الخدمة الذاتية. على سبيل المثال، من أجل تسريع عملية إنشاء التطبيقات، يمكن أن يساعد المتدربون الرقميون منعدمو الرموز المستخدمين النهائيين، الذين يفتقرون إلى الخبرة البرمجية، من خلال التعليم والتوجيه والتحقق من صحة التعليمات البرمجية بشكل فعال.

الذكاء الاصطناعي التوليدي

يُعد الذكاء الاصطناعي التوليدي فئة من فئات الذكاء الاصطناعي الذي يُنشئ ذاتيًا نصوصًا أو صورًا أو مقاطع فيديو أو بيانات أو محتوى آخر استجابةً لتعليمات المستخدم أو طلبه.

يعتمد الذكاء الاصطناعي التوليدي على نماذج التعلم العميق التي يمكنها التعلم من الأنماط الموجودة في المحتوى المتوفر وإنشاء محتوى جديد مشابه بناءً على هذا التدريب. وله استخدامات في العديد من المجالات —بما في ذلك خدمة العملاء والتسويق وتطوير البرمجيات والأبحاث—ويوفر إمكانات هائلة من شأنها تبسيط سير العمل في المؤسسات من خلال عمليات آلية سريعة لإنشاء المحتوى وتعزيزه.

يتفوق الذكاء الاصطناعي التوليدي في التعامل مع مصادر البيانات المتنوعة مثل رسائل البريد الإلكتروني والصور ومقاطع الفيديو والملفات الصوتية ومحتوى وسائل التواصل الاجتماعي. تُشكّل هذه البيانات غير المنظمة الأساس الذي تقوم عليه عملية إنشاء النماذج والتدريب المستمر للذكاء الاصطناعي التوليدي، بحيث تظل فعّالة بمرور الوقت. يمكن أن يؤدي استخدام هذه البيانات غير المنظمة إلى تحسين خدمة العملاء من خلال روبوتات المحادثة وتسهيل توجيه البريد الإلكتروني بشكل أكثر فعالية. ومن الناحية العملية، قد يعني ذلك توجيه المستخدمين إلى الموارد المناسبة، سواء كان ذلك بتوصيلهم بالمساعد المناسب أو توجيههم إلى أدلة المستخدم والأسئلة الشائعة.

على الرغم من أوجه القصور والمخاطر التي قُتلت بحثًا، إلا إن العديد من الشركات تمضي قدمًا وتستكشف بحذر كيف يمكن لمؤسساتها استخدام الذكاء الاصطناعي التوليدي من أجل تحسين سير العمل الداخلية، وتعزيز منتجاتها وخدماتها. هذا هو التحدي الجديد: كيفية جعل مكان العمل أكثر كفاءة من دون الوقوع في مشاكل قانونية أو أخلاقية.

معالجة اللغة الطبيعية والتعرف على الكلام

تجمع معالجة اللغة الطبيعية بين اللغويات الحاسوبية - النمذجة القائمة على القواعد للغة البشرية - والنماذج الإحصائية ونماذج التعلم الآلي بهدف تمكين أجهزة الكمبيوتر والأجهزة الرقمية من التعرف على النصوص والكلام وفهمهم وإنشائهم. تعمل معالجة اللغة الطبيعية على تشغيل التطبيقات والأجهزة التي يمكنها ترجمة النص من لغة إلى أخرى، والاستجابة للأوامر المكتوبة أو المنطوقة، والتعرف على المستخدمين أو مصادقتهم بناءً على الصوت. وتساعد على تلخيص كميات كبيرة من النصوص وتقييم المقصد أو المشاعر في النصوص أو الكلام وإنشاء نصوص أو رسومات أو محتوى آخر عند الطلب.

تُعد معالجة اللغة الطبيعية الإحصائية فرعًا من فروع معالجة اللغة الطبيعية، وهي تجمع بين خوارزميات الكمبيوتر مع نماذج التعلم الآلي والتعلم العميق. يساعد هذا النهج على استخراج عناصر البيانات النصية والصوتية وتصنيفها وتسميتها تلقائيًا ثم تعيين احتمالية إحصائية لكل معنى محتمل لتلك العناصر. في الوقت الحالي، تُمكّن نماذج التعلم العميق وتقنيات التعلم القائمة على الشبكات العصبية التكرارية نظم معالجة اللغة الطبيعية من "التعلّم" في أثناء العمل واستخلاص المزيد من المعاني الدقيقة من كميات هائلة من مجموعات البيانات النصية والصوتية غير المنسقة وغير المنظمة وغير المصنفة.

التعرف على الكلام —المعروف أيضًا باسم التعرف التلقائي على الكلام (ASR)، أو تعرف أجهزة الكمبيوتر على الكلام، أو تحويل الكلام إلى نص—هي إمكانية تساعد البرنامج على معالجة الكلام البشري وتحويله إلى تنسيق مكتوب.

في حين أنه عادةً ما يتم الخلط بين التعرف على الكلام والتعرف على الصوت، إلا إن التعرف على الكلام يركز على ترجمة الكلام من صيغة لفظية إلى صيغة نصية، بينما يسعى التعرف على الصوت إلى التعرف على صوت المستخدم فقط.

تطبيقات الصناعة

استخدامات التعلم العميق على أرض الواقع تُحيط بنا، وهي مدمجة بشكل جيد في المنتجات والخدمات لدرجة أن المستخدمين لا يلاحظون عملية معالجة البيانات التي تجري في الخلفية. ومن هذه الأمثلة ما يلي:

التعلم العميق في مجال خدمة العملاء

تدمج العديد من المؤسسات تقنية التعلم العميق في عمليات خدمة العملاء.وغالبًا ما تستخدم روبوتات المحادثة في العديد من التطبيقات والخدمات ومنافذ خدمة العملاء. تستخدم روبوتات المحادثة التقليدية اللغة الطبيعية وحتى التعرف البصري، وهو أمر شائع في القوائم الشبيهة بمراكز الاتصالات. ومع ذلك، تحاول حلول روبوت المحادثة الأكثر تطورًا تحديد، من خلال التعلم، ما إذا كانت هناك إجابات متعددة للأسئلة الغامضة في الوقت الفعلي. بناءً على الردود التي يتلقاها، يحاول روبوت المحادثة الإجابة عن هذه الأسئلة مباشرةً أو توجيه المحادثة إلى مستخدم بشري.

يعمل المساعدون الافتراضيون مثل Siri المقدم من شركة Apple أو Amazon Alexa أو Google Assistant على تعزيز فكرة روبوت المحادثة من خلال تفعيل وظيفة التعرّف على الكلام. وهذا من شأنه أن يُنشئ طريقة جديدة للتفاعل مع المستخدمين بطريقة مخصصة.

تحليلات الخدمات المالية

تُجري المؤسسات المالية تحليلات تنبئية بانتظام بهدف توجيه التداول الخوارزمي للأسهم، وتقييم المخاطر التجارية لموافقات القروض، والكشف عن عمليات الاحتيال، والمساعدة على إدارة محافظ الائتمان والاستثمار للعملاء.

حفظ سجلات الرعاية الصحية

استفاد مجال الرعاية الصحية بشكل كبير من إمكانات التعلم العميق منذ رقمنة السجلات والصور في المستشفيات. يمكن أن تدعم تطبيقات التعرف على الصور أخصائيي التصوير الطبي وأخصائيي الأشعة، ما يساعدهم على تحليل المزيد من الصور وتقييمها في وقت أقل.

تستخدم سلطات إنفاذ القانون التعلم العميق

يمكن أن تحلل خوارزميات التعلم العميق بيانات المعاملات وتتعلم منها بهدف تحديد الأنماط الخطيرة التي تشير إلى نشاط احتيالي أو إجرامي محتمل. يمكن أن يعزز التعرف على الكلام والرؤية الحاسوبية وتطبيقات التعلم العميق الأخرى من كفاءة وفعالية التحليل الاستقصائي من خلال استخراج الأنماط والأدلة من التسجيلات الصوتية ومقاطع الفيديو والصور والمستندات. تساعد هذه الإمكانات سلطات إنفاذ القانون على تحليل كميات كبيرة من البيانات بسرعة ودقة أكبر.