أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
خوارزمية التعلم الآلي هي الإجراء والمنطق الرياضي الذي من خلاله تستطيع "الآلة" - نظام الذكاء الاصطناعي - تعلم كيفية تحديد الأنماط في بيانات التدريب وتطبيق التعرف على الأنماط هذا لتقديم تنبؤات دقيقة على البيانات الجديدة. تعتبر خوارزميات التعلم الآلي اللبنات الأولى التي شكلت أساس الذكاء الاصطناعي وعلم البيانات الحديث، بدءًا من نماذج الانحدار الخطي البسيطة وصولًا إلى أساليب التعلم العميق المتطورة.
غالبًا ما يتم استخدام مصطلحَي "الخوارزمية" و"النموذج" بالتبادل، لكنهما يمثِّلان مفاهيم مختلفة (وإن كانت مترابطة). الخوارزمية هي مصطلح عام لعملية خطوة بخطوة، وعادةً ما يتم وصفها بلغة رياضية أو شفرة زائفة، لأداء بعض الوظائف أو الغرض. في سياق الذكاء الاصطناعي، تُعَد نماذج الذكاء الاصطناعي أي برنامج يتلقى إدخالًا ويُخرِج تنبؤًا أو قرارًا دون مزيد من التدخل البشري.
خوارزمية التعلم الآلي هي مجموعة محددة من الخطوات المستخدمة لتدريب نموذج التعلم الآلي حتى يتمكن من إجراء تنبؤات مفيدة في حالة الاستخدام في العالم الحقيقي. ولا يشمل ذلك فقط الطريقة التي يعيِّن بها النموذج الإدخال إلى المخرجات المقابلة له، بل يشمل أيضًا عملية تحسين تنبؤات النموذج "لتتناسب" مع مجموعة بيانات تدريبية من الأمثلة ذات الصلة. إنها خوارزمية تمكِّن الآلة من التعلم من البيانات.
من الناحية المباشرة، تكون نتيجة تطبيق خوارزمية التعلم الآلي على مجموعة بيانات هي نموذج مدرَّب. يمكن فهم "التدريب" على أنه عملية تكرارية لتحديث مَعلمات النموذج، الجوانب القابلة للتعديل للمنطق الرياضي الذي يستخدمه النموذج لإجراء تنبؤات أو قرارات بشأن بيانات الإدخال، بطريقة تُنتِج مخرجات أكثر فائدة.
رغم وجود خوارزميات تعلم آلي مصممة خصيصًا لتدريب النماذج على أداء مهمة واحدة محددة، فإن ذلك يُعَد استثناءً وليس قاعدة. بشكل عام، تمتلك كل خوارزمية تعلم آلي خصائص رياضية أو عملية معينة تجعلها مناسبة لأنواع محددة من المهام (أو لأنواع أو كميات معينة من البيانات). في العديد من الحالات، يمكن استخدام تقنية التعلم الآلي نفسها لتدريب نماذج لمهام متعددة (وإن كانت متشابهة). وعلى العكس، يوجد في الغالب أكثر من خوارزمية تعلم آلي واحدة مناسبة تمامًا لتدريب نموذج لأداء أي مهمة محددة.
تتمثل الفائدة الأساسية من خوارزميات التعلم الآلي في أنها تمكِّن نماذج الذكاء الاصطناعي من التعلم بشكل ضمني من التجربة. ويختلف ذلك عن تقنيات الذكاء الاصطناعي "الكلاسيكية" أو "القائمة على القواعد"، التي تتطلب من عالم بيانات أو خبير متخصص أو مهندس تعلم آلي برمجة منطق اتخاذ القرار في النموذج يدويًا وبشكل صريح. على مدى العقود القليلة الماضية، أصبحت أنظمة التعلم الآلي الشكل السائد للذكاء الاصطناعي وتحليل البيانات بدلًا من الذكاء الاصطناعي القائم على القواعد؛ وذلك لأسبابٍ عدة، من أبرزها أن التعلم الآلي القائم على البيانات الضمنية يتميز بمرونة وقابلية توسُّع وسهولة وصول أكبر بطبيعته.
ومع ذلك، من الضروري الإشارة إلى أن مواءمة النموذج مع بيانات التدريب ليست سوى وسيلة لتحقيق الغاية. الفرضية الأساسية للتعلم الآلي هي أنه إذا تم تحسين أداء النموذج على مهام تجريبية تشبه بدرجة كافية المشكلات الواقعية التي سيتم استخدامه من أجلها، فسيتمكّن النموذج المدرَّب من الأداء جيدًا أيضًا على البيانات الجديدة التي لم يشاهدها أثناء التدريب. الهدف النهائي للتعلم الآلي هو التعميم، أي نقل أداء النموذج من بيانات التدريب إلى بيانات جديدة غير مرئية من قبل. إن التركيز المفرط على التدريب بحد ذاته قد يؤدي إلى خطر الإفراط في التخصيص، وهي ظاهرة تُصبح فيها معرفة النموذج متكيّفة بشكل مفرط مع الأنماط الموجودة في بيانات التدريب، ما يفقده القدرة على التعميم، فينتج نموذجًا يتفوق أثناء التدريب ولكنه يفشل في سيناريوهات العالم الحقيقي.
لذلك، لا يتطلب تدريب نموذج تعلم آلي فعَّال اختيار نوع خوارزمية تعلم آلي مناسبة وضبط إعداداتها فحسب، بل يحتاج أيضًا إلى إعداد بيانات التدريب بعناية والتحقق المدروس من أداء النموذج بعد التدريب.
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
يمكن تصنيف خوارزميات التعلم الآلي إلى ثلاث فئات أساسية: التعلم الخاضع للإشراف أو التعلم غير الخاضع للإشراف أو التعلم المعزز.يتميّز كل واحد من أنماط التعلم هذه بأهدافه الخاصة، وبنوع مهام التدريب التي تندرج ضمن تلك الأهداف، وبالأساليب المستخدمة لتحسين الأداء في تلك المهام.
على الرغم من عدم وجود أي خوارزميات للتعلم الآلي لا تندرج تحت أي من هذه النماذج الثلاثة، إلا أن هناك بعض أساليب التعلم التي يكون تصنيفها غامضًا نسبيًا. على سبيل المثال، يجمع التعلم شبه الخاضع للإشراف بين التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف؛ ويقوم التعلم الذاتي الإشرافي بمعالجة بيانات الإدخال وتصميم مهام التدريب بطريقة تمكّن التعلم الخاضع للإشراف باستخدام بيانات غير مصنفة (غير موسومة).
يمكن تدريب النموذج بأكثر من نوع واحد من خوارزميات التعلم الآلي. على سبيل المثال، تخضع النماذج اللغوية الكبيرة (LLM) عادة لتدريبها الأولي ("التدريب المسبق") من خلال التعلم الخاضع للإشراف الذاتي، لكن يتم ضبطها بعد ذلك من خلال كل من خوارزميات التعلم التقليدية الخاضعة للإشراف بالإضافة إلى خوارزميات التعلم المعزز. وبالمثل، تستلزم خوارزميات التعلم الجماعي تجميع نماذج متعددة في نموذج واحد "نهائي".
خوارزميات التعلم الآلي ليست نمطًا واحدًا يناسب الجميع؛ فلكل خوارزمية العديد من المَعلمات الفائقة التي يجب ضبطها لتكييف النموذج بأفضل شكل مع السيناريو المحدد ومجموعة البيانات التي سيعمل ضمنها. على سبيل التشبيه، يمكن النظر إلى إعداد البيتزا: إذ يمكن تعريف "الخوارزمية" الأساسية لصنع البيتزا على أنها وضع صلصة الطماطم فوق عجينة دائرية، ثم إضافة جبن الموتزاريلا فوق الصلصة، وخَبزها في الفرن - لكن توجد طرق شبه غير محدودة يمكن من خلالها تهيئة هذه "الخوارزمية" لتناسب أذواقًا أو مكونات أو ميزانيات أو قيودًا محددة.
الهدف الرسمي لأي خوارزمية تعلم آلي خاضع للإشراف هو تحسين مَعلمات النموذج بطريقة تقلل مخرجات دالة الخسارة، التي تقيس مقدار الانحراف (أو "الخسارة") بين المخرجات المتوقعة للنموذج لكل إدخال ومخرجات الحقيقة المرجعية المقابلة لتلك الإدخالات.
في التعلم التقليدي الخاضع للإشراف، يتم توفير الحقيقة المرجعية من خلال البيانات المصنفة. على سبيل المثال، يتطلب تدريب نموذج لاكتشاف رسائل البريد العشوائي عادةً قيام شخص مختص بوضع التعليقات يدويًا على مجموعة من رسائل البريد الإلكتروني النموذجية، وتصنيف كل رسالة على أنها بريد عشوائي (SPAM) أو غير عشوائي (NOT SPAM). الهدف من تدريب النموذج هو ضبط مَعلمات النموذج إلى أن تتطابق تنبؤاته لمخرجات رسالة بريد إلكتروني معينة باستمرار مع التصنيف الذي وضعه الإنسان لتلك الرسالة. ونظرًا لأن هذه الطريقة تتضمن إشرافًا مباشرًا من الإنسان على ما يتعلمه النظام؛ تُعرَف باسم التعلم الخاضع للإشراف. يُعرَّف التعلم الخاضع للإشراف غالبًا ببساطة على أنه تعلم آلي يستخدم بيانات مصنفة.
غير أن بعض الحالات -وخاصةً في التعلم العميق الحديث- تتطلب مجموعات بيانات كبيرة ونقاط بيانات معقدة لدرجة أن الحصول على بيانات تدريب مصنفة كافية يصبح أمرًا مكلفًا جدًا من حيث الوقت والجهد. تم تطوير التعلم الخاضع للإشراف الذاتي بشكل أساسي لمعالجة مثل هذه السيناريوهات، إذ يصمِّم مهام تدريبية يمكن من خلالها استنتاج التصنيفات (أو "التصنيفات الزائفة") من بيانات غير مصنفة. وهذا يُضعِف التعريف التقليدي للتعلم الخاضع للإشراف باعتباره يتطلب بيانات مصنفة. لذلك، من الأنسب والأشمل تعريف خوارزميات التعلم الخاضع للإشراف على أنها أساليب تعلم آلي تتضمن وجود حقيقة مرجعية (أو "إشارة إشرافية") يتم تحسين النموذج بناءً عليها، مع وجود دالة خسارة تُقارِن بين مخرجات النموذج وتلك الحقيقة المرجعية.
يتم استخدام خوارزميات التعلم الخاضع للإشراف لتدريب نموذج لمهام التصنيف أو مهام الانحدار أو كليهما.
يمكن استخدام العديد من خوارزميات التعلم الخاضع للإشراف لتدريب نماذج الانحدار أو التصنيف. على سبيل المثال، يمكن أن يستخدم النموذج الانحدار للتنبؤ باحتمال انتماء نقطة بيانات معينة إلى كل فئة محتملة، ثم يُخرج الفئة ذات الاحتمال الأعلى.
الهدف من خوارزميات التعلم الخاضع للإشراف الذاتي هو إجراء التعلم الخاضع للإشراف دون الحاجة إلى بيانات مصنفة، من خلال تصميم مهام تستخدم بنية البيانات غير المصنفة نفسها كمصدر للإشراف. تندرج تقنيات التعلم الخاضع للإشراف الذاتي بشكل عام في واحدة من مجموعتين فرعيتين: التنبؤ الذاتي أو التعلم المتباين.
تعمل خوارزميات التنبؤ الذاتي على تدريب نموذج لتوقُّع جانب واحد من بيانات نقطة معينة عند توافر معلومات أخرى عنها. عبَّر Yann LeCun عن هدف هذه الأساليب بعبارات بسيطة: "تخيَّل أن هناك جزءًا من الإدخال لا تعرفه وحاول التنبؤ به".1 على سبيل المثال:
عادة ما تكون النماذج المدرَّبة باستخدام التنبؤ الذاتي توليدية وليست تمييزية. وتشمل الأمثلة البارزة لنماذج التعلم الآلي التي تم تدريبها باستخدام خوارزميات التنبؤ الذاتي، المشفرات التلقائية والنماذج اللغوية الكبيرة (LLM):
توفر خوارزميات التعلم المتباين للنماذج عينات بيانات متعددة وتكلِّفها بالتنبؤ بمدى اختلافها (أو تشابهها). غالبًا ما يتم إنشاء أزواج نقاط البيانات عبر تعزيز البيانات: أي تحويل البيانات غير المصنفة أو تعديلها لإنشاء مثيلات جديدة أو أو طرق عرض معززة منها. على سبيل المثال، تشمل تقنيات التعزيز الشائعة لبيانات الصورة التدوير والاقتصاص العشوائي والتقليب والضوضاء والتصفية والتلوين.
يُستخدَم التعلم المتباين بشكل بارز في تدريب نماذج رؤية الكمبيوتر؛ فمثلًا، يمكنه مساعدة النموذج على تمييز نفس الكائن عند مشاهدته من زوايا مختلفة. وهو ضروري أيضًا في تدريب الذكاء الاصطناعي متعدد الوسائط: على سبيل المثال، يمكن أن يساعد النموذج على تعلم "ترجمة" تضمينات المتجهات من نمط بيانات واحد (مثل النص) إلى آخر (مثل الكلام أو الصور).
يُستخدَم التعلم الآلي غير الخاضع للإشراف لتعليم النماذج كيفية اكتشاف الأنماط الداخلية والارتباطات والبنية في البيانات غير المصنفة. على عكس التعلم الخاضع للإشراف الذي يتطلب وجود إجابات "صحيحة" يجب على النموذج تعلم إنتاجها، أو التعلم التعزيزي الذي يشمل نطاقًا من الأفعال "الجيدة" و"السيئة" التي يمكن للنموذج اتخاذها، يكون التعلم غير الخاضع للإشراف أكثر فائدة في الحالات التي لا يُعرف فيها الإخراج المثالي مسبقًا.
لا تخضع هذه الأهداف لأي حقائق مرجعية محددة مسبقًا أو هيكل مكافآت، ومن هنا جاء مصطلح "غير خاضع للإشراف". لذلك لا تتضمن خوارزميات التعلم غير الخاضع للإشراف دالة الخسارة، حيث لا تستلزم مهامها مخرجات مثالية معروفة للقياس والتحسين نحوها. يخضع نجاح عملية التعلم بشكل أساسي من خلال الضبط اليدوي للمَعلمات الفائقة، بدلًا من الخوارزميات التي تعمل على تحسين المَعلمات الداخلية للنموذج.
هناك ثلاث مجموعات فرعية أساسية من خوارزميات التعلم غير الخاضع للإشراف: خوارزميات التجميع، وخوارزميات الارتباط، وخوارزميات تقليل الأبعاد .
تعمل خوارزميات التجميع على تقسيم نقاط البيانات غير المصنفة إلى "مجموعات"، بناءً على قربها أو تشابهها مع بعضها ، لمهام مثل تقسيم السوق. يمكن أيضًا استخدامها كنماذج تنبؤية لاكتشاف الحالات الشاذة من خلال تعلم المجموعات التي يجب فرز جميع نقاط البيانات فيها وتحديد متى لا تتناسب نقطة بيانات خارجية بشكل أنيق مع أيٍّ من تلك المجموعات.
من بين خوارزميات الارتباط الأخرى البارزة خوارزمية CHARM (وهي اختصار Closed Association Rule Mining - ويشير مؤلفو ورقة CHARM إلى أن حرف H غير ضروري)2 وخوارزمية CARMA (خوارزمية التعدين المستمر لقواعد الارتباط).3
تهدف خوارزميات تقليل الأبعاد إلى استقبال نقطة بيانات وإنتاج تمثيل أكثر كفاءة لتلك النقطة. وبشكل أكثر تحديدًا، تهدف هذه الخوارزميات إلى تعلُّم تعيين نقاط البيانات عالية الأبعاد إلى فضاء يمكن فيه تمثيلها بدقة باستخدام عدد أقل من الخصائص؛ بعبارة أخرى، لتقليل عدد الأبعاد اللازمة لتمثيل البيانات بشكل فعَّال.
غالبًا ما يتم إجراء تقليل الأبعاد كخطوة تمهيدية لمعالجة البيانات، حيث يساعد على تقليل التعقيد والضوضاء في البيانات بهدف تحسين التنبؤات أو تخفيض متطلبات الحوسبة. ويُعَد أيضًا خطوة أساسية في نمذجة الفضاء الكامن لمجموعة البيانات: تمثيل مضغوط (ذو أبعاد أقل) للبيانات يحتفظ فقط بالمجموعة الفرعية من الميزات الأكثر صلة بالمهمة المطروحة. من الاستخدامات الشائعة الأخرى لتقليل الأبعاد ضغط البيانات والعروض المصورة لها.
يُستخدَم التعلم شبه الخاضع للإشراف عادةً لنفس حالات استخدام أساليب التعلم الخاضع للإشراف، ويتميّز بتقنيات تُتيح دمج البيانات غير المصنفة في تدريب النموذج إلى جانب مجموعة فرعية من البيانات المصنفة. تكون هذه الأساليب مفيدة بشكل خاص في الحالات التي يكون فيها الحصول على كمية كافية من البيانات المصنفة صعبًا أو مكلِّفًا للغاية، بينما يكون من السهل نسبيًا الحصول على بيانات غير مصنفة ذات صلة.
يجب أن تكون الأمثلة غير المصنفة المستخدمة في التعلم شبه الخاضع للإشراف ذات صلة بالمهمة التي يتم تدريب النموذج لأدائها. على سبيل المثال، عند تدريب مصنِّف صور للتمييز بين صور القطط والكلاب، فإن إدراج صور غير مصنفة للقطط والكلاب سيساعد على التدريب، بينما صور الخيول والدراجات النارية لن تكون مفيدة. توجِّه هذه الحالة مجموعة من الافتراضات حول كيفية ارتباط نقاط البيانات ببعضها، والتي تشكِّل المنطق الرسمي لطرق التعلم شبه الخاضع للإشراف.
يتم تصنيف خوارزميات التعلم شبه الخاضع للإشراف عمومًا على أنها نقلية (Transductive) أو استنتاجية (Inductive) أو ذات إشراف ذاتي متأصل (Inherently Self-Supervised).
خوارزميات التعلم المعزز (RL) مناسبة للمهام التي لا يوجد فيها مخرجات "صحيحة" (أو إجراء) فردي، ولكن هناك مخرجات "جيدة". يتم استخدام هذه الأساليب بشكل بارز في الروبوتات وألعاب الفيديو ونماذج الاستدلال وحالات استخدام أخرى يكون فيها فضاء الحلول والطرق الممكنة واسعًا جدًا، مفتوحًا أو صعب التحديد. في مصطلحات التعلم المعزز (RL)، يُشار عادةً إلى الكيان الذي يتم تدريبه باسم "الوكيل".
بدلًا من وجود إشارة إشرافية ومهام محددة بوضوح، تعتمد هذه الطريقة على إشارة مكافأة تُتيح للنماذج التعلم بشكل شامل من خلال التجربة والخطأ. يمكن أن تأتي إشارة المكافأة من دالة مكافأة، أو نموذج مكافأة مدرَّب بشكل منفصل، أو نظام مكافأة قائم على قواعد محددة.
تعمل خوارزميات التعلم المعزز على تحسين السياسة.من الناحية الرياضية، تُعَد السياسة (π) دالة تأخذ الحالة (s) كمُدخل وتُرجِع الإجراء (a): π(s) → a. الهدف من خوارزمية التعلم المعزز هو معرفة السياسة التي تختار الإجراء الذي يحقق أقصى مكافأة لكل حالة معينة.
يمكن أن تكون خوارزميات التعلم المعزز قائمة على القيمة أو قائمة على السياسة.في الخوارزميات القائمة على السياسة، يتعلم النموذج السياسة المُثلى مباشرةً. في الخوارزميات القائمة على القيمة، يتعلم الوكيل دالة القيمة التي تحسِب درجة "جودة" كل حالة -عادةً بناءً على المكافأة المحتملة للإجراءات الممكن اتخاذها من تلك الحالة- ثم يختار الإجراءات التي تؤدي إلى حالات ذات قيمة أعلى. تتعلم الأساليب الهجينة دالة قيمة يتم استخدامها بدورها لتحسين السياسة.
تشمل خوارزميات التعزيز البارزة ما يلي:
يشير التعلم الجماعي إلى تقنيات تدمج عدة خوارزميات تعلم آلي -غالبًا ما يُشار إليها باسم "المتعلمين" في هذا السياق- لتحقيق أداء أكثر دقة أو موثوقية مما يمكن لأي خوارزمية من مكوناته تحقيقه بمفردها.
عادةً ما تستخدم خوارزميات التعلم الجماعي تقنيات التعزيز أو التكديس أو التعبئة.
تعمل خوارزميات التعزيز على بناء النماذج بالتتابع، حيث يتم تدريب كل نموذج جديد لاحق لتصحيح أخطاء النموذج السابق. تتطور سلسلة من "المتعلمين" الضعفاء في البداية لتصل في النهاية إلى "متعلم" واحد قوي وذي دقة عالية.
تعمل خوارزميات التعبئة، المعروفة أيضًا باسم التجميع التمهيدي، على تدريب عدة نماذج بشكل متوازٍ على عينات فرعية عشوائية مختلفة من مجموعة البيانات التدريبية، ثم يتم دمج تنبؤاتها عبر التصويت في مشكلات التصنيف أو المتوسط الحسابي في مشكلات الانحدار. هذا النهج فعَّال للغاية في الحد من التباين ومنع الإفراط في التخصيص.
على سبيل المثال، تستخدم خوارزمية الغابة العشوائية أسلوب التعبئة لبناء مجموعات من نماذج أشجار القرار غير المترابطة.
تقوم خوارزميات التكديس (Stacking) على دمج تنبؤات عدة متعلمين أساسيين -غالبًا ما يتخصص كل منهم في نوع معين من التنبؤات- ثم يتم تدريب نموذج نهائي (Meta-Model) على مخرجات هذه النماذج الأساسية لتعلُّم أفضل طريقة لدمج تنبؤاتها، بهدف الحصول على مخرجات نهائية أكثر دقة وموثوقية.
في تقنية تقطير المعرفة (Knowledge Distillation) ذات الصلة، يتم تدريب النموذج النهائي ليس فقط على التنبؤات النهائية ("الأهداف الصلبة") للمتعلمين الأساسيين، بل أيضًا على مخرجاتهم الوسيطة ("اللوجيتس" أو "الأهداف الناعمة")، في محاولة لمحاكاة عمليات تفكيرهم.
التعلم العميق هو فرع من التعلم الآلي يتميز باستخدام شبكات عصبية اصطناعية متعددة الطبقات، غالبًا ما يتم تدريبها عبر التعلم الخاضع للإشراف على بيانات مصنفة، أو (كما هو شائع في نماذج الذكاء الاصطناعي التوليدي) عبر التعلم الذاتي على بيانات غير مصنفة. في التعلم المعزز العميق، تعمل الشبكة العصبية العميقة كسياسة (Policy) للوكيل التعزيزي. لقد كان التعلم العميق هو المحرك لمعظم التطورات الحديثة في مجال الذكاء الاصطناعي منذ أوائل العقد الأول من القرن الحادي والعشرين. ومن بين أهم نقاط قوته هي قدرته على أتمتة عملية هندسة الميزات، والتي غالبًا ما تكون يدوية في التعلم الآلي التقليدي.
على عكس الخوارزميات المحدَّدة صراحةً في التعلم الآلي التقليدي، تتكوّن نماذج التعلم العميق من العديد من الطبقات المترابطة من "الخلايا العصبية" (أو "العُقد")، كل منها يؤدي عملية رياضية تُسمَّى دالة التفعيل (Activation Function). المدخل لكل دالة تفعيل في كل خلية عصبية هو مزيج مرجح لمخرجات دوال التفعيل لكل الخلايا العصبية في الطبقة السابقة. تحسِب الخلايا العصبية في الطبقة النهائية الناتج النهائي للنموذج. والأهم من ذلك أن دوال التفعيل التي يتم إجراؤها في كل عقدة تكون غير خطية، ما يُتيح للشبكات العصبية نمذجة الأنماط المعقدة والتبعيات. على الرغم من أن الشبكات العصبية في الذكاء الاصطناعي الحديث ترتبط غالبًا بالتعلم العميق المتقدم، فإن الشبكات العصبية "غير العميقة" مثل أجهزة Boltzmann المقيدة تُستخدم منذ عقود.
إن الهيكل الموزع لخوارزميات التعلم العميق هو ما يمنحها قوتها ومرونتها الكبيرة. تخيَّل أن بيانات التدريب نقاط مبعثرة على رسم بياني ثنائي الأبعاد، والهدف من تدريب النموذج هو إيجاد خط يمر عبر كل هذه النقاط. بينما تحاول خوارزميات التعلم الآلي التقليدية تحقيق ذلك باستخدام دالة رياضية واحدة تُنتِج خطًا واحدًا (أو منحنى)، يمكن لخوارزميات التعلم العميق جمع عدد غير محدد من الخطوط الصغيرة القابلة للتعديل بشكل فردي لتشكيل الشكل المطلوب. الشبكات العصبية العميقة هي مقارِبات شاملة: فقد ثبت نظريًا أنه لأي دالة، هناك ترتيب لشبكة عصبية يمكنه إعادة إنتاجها.6
لننظر إلى المُشفِّرات الذاتية: من ناحية البنية، المُشفِّر الذاتي هو نموذج مشفِّر-مفكِّك، حيث تتميز شبكة المشفِّر الخاصة به بطبقات تتصاغر تدريجيًا، بينما تتميز شبكة المفكِّك الخاصة به بطبقات تتضخم تدريجيًا. لكن نموذج المُشفِّر الذاتي ليس سوى واحد من العديد من نماذج وحدة فك التشفير: على سبيل المثال، تحتوي نماذج تجزئة الصور على بنية متشابهة جدًا، حيث تقوم الطبقات التلافيفية الأصغر تدريجيًا بتقليل عينة البيانات لعزل السمات (الخصائص) الرئيسية وتقسيمها، تليها طبقات أكبر تدريجيًّا تقوم بزيادة عينة البيانات (المجزأة) إلى حجمها الأصلي.
الشيء الذي يجعل المشفر التلقائي مشفرًا تلقائيًا ليس (فقط) بنيته، لكنه الخوارزمية المستخدمة في التدريبعليه: حيث تتمثل مهمة المشفر التلقائي في إعادة بناء الإدخال الأصلي، وتحسينها من خلال تدريب النموذج لتقليل دالة تقيس خسارة إعادة البناء (غالبًا ما يتم تعديلها بواسطة شروط التنظيم الإضافية). فالنموذج الذي يحتوي على بنية متطابقة ولكن يتم تدريبه على أداء مهمة مختلفة ومحسن لهدف مختلف لا يعتبر من نماذج المُشفِّر الذاتي.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
All links reside outside IBM.com.
1. “Energy-Based Self-Supervised Learning,” Yann LeCun (accessed via UCLA), 19 November 2019
2. “CHARM: An Efficient Algorithm for Closed Itemset Mining,” Proceedings of the 2002 SIAM International Conference on Data Mining
3. “Online Association Rule Mining,” Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data, 1 June 1999
4. “Semi-Supervised Learning with Ladder Networks,” arXiv, 24 November 2015
5. “Kolmogorov’s Mapping Neural Network Existence Theorem,” Proceedings of the IEEE First International Conference on Neural Networks (accessed through University of Waterloo), 1987
6. “Multilayer Feedforward Networks with a Non-Polynomial Activation Function Can Approximate Any Function,” Center for Research on Information Systems (New York University), March 1992