التعلم الآلي هو مجموعة فرعية من الذكاء الاصطناعي تركز على الخوارزميات التي يمكنها "تعلم" أنماط بيانات التدريب، ومن ثمّ إجراء استنتاجات دقيقة حول البيانات الجديدة. تُمكِّن قدرة التعرف على الأنماط هذه نماذج التعلم الآلي من اتخاذ قرارات أو تنبؤات دون تعليمات صريحة ومشفرة.
لقد أصبح التعلم الآلي يهيمن على حقل الذكاء الاصطناعي: فهو يوفر العمود الفقري لمعظم أنظمة الذكاء الاصطناعي الحديثة، من نماذج التنبؤ إلى المركبات ذاتية القيادة إلى النماذج اللغوية الكبيرة (LLM) وغير ذلك من أدوات الذكاء الاصطناعي التوليدي الأخرى.
الفكرة الأساسية للتعلم الآلي هي أنه إذا قمت بتحسين الأداء على مجموعة البيانات من المهام التي تشبه بشكل كافٍ المشكلات الواقعية التي سيتم استخدامها لحالة الاستخدام - من خلال عملية تسمى تدريب النموذج- فسوف يكون ممكنًا للنموذج بعد ذلك تقديم تنبؤات دقيقة بشأن البيانات الجديدة التي يراها في حالة الاستخدام النهائية.
والتدريب في حد ذاته هو مجرد وسيلة لتحقيق غاية معينة: وهي التعميم، أي ترجمة الأداء القوي على بيانات التدريب إلى نتائج مفيدة في سيناريوهات العالم الحقيقي، وهذا هو الهدف الأساسي للتعلم الآلي. وفي جوهره، يطبق النموذج المدرب الأنماط التي تعلمها من بيانات التدريب لاستنتاج المخرجات الصحيحة لأداء مهمة في العالم الحقيقي: لذلك يُسمَّى نشر نموذج الذكاء الاصطناعي بالاستدلال الذكاء الاصطناعي.
التعلم العميق، مجموعة فرعية من التعلم الآلي مدفوعة بشبكات عصبية اصطناعية كبيرة - أو بالأحرى "عميقة" - وقد ظهر على مدى العقود القليلة الماضية باعتباره بنية نموذج نماذج الذكاء الاصطناعي الحديثة في كل مجال تقريبًا يُستخدم فيه الذكاء الاصطناعي. وعلى العكس من الخوارزميات المحددة بوضوح في التعلم الآلي التقليدي، يعتمد التعلم العميق على "شبكات" موزَّعة من العمليات الرياضية التي توفر قدرة لا مثيل لها على تعلم الفروق الدقيقة المعقدة للبيانات المعقدة جدًا. ولأن التعلم العميق يتطلب كميات كبيرة جدًا من البيانات والموارد، فقد تزامن ظهوره مع الأهمية المتصاعدة "للبيانات الكبيرة" ووحدات معالجة الرسومات (GPU).
يرتبط تخصص التعلم الآلي ارتباطًا وثيقًا بتخصص علم البيانات. بمعنى ما، يمكن فهم التعلم الآلي على أنه مجموعة من الخوارزميات والتقنيات لأتمتة تحليل البيانات و(الأهم من ذلك) تطبيق الدروس المستفادة من هذا التحليل على التنفيذ المستقل للمهام ذات الصلة.
ورغم أن الفكرة الأساسية كانت موجودة سابقًا، إلا أن صياغة المصطلح نفسه تُنسب عادةً إلى آرثر ل. صموئيل في مقاله الذي كتبه في مجلة IBM Journal عام 1959، والذي كان بعنوان: "بعض الدراسات في التعلم الآلي باستخدام لعبة الداما". حيث أوضح صامويل، في مقدمة بحثه، بدقة النتيجة المثالية للتعلم الآلي: "يمكن برمجة الحاسوب بحيث يتعلم لعب لعبة الداما بشكل أفضل مما يمكن أن يمثله الشخص الذي كتب البرنامج."1
على الرغم من أن مصطلح "التعلم الآلي" ومصطلح "الذكاء الاصطناعي" غالبًا ما يُستخدمان بالتبادل، إلا أنهما ليسا مصطلحين مترادفين تمامًا. باختصار: كل تعلم آلي هو ذكاء اصطناعي، لكن ليس كل ذكاء اصطناعي هو تعلم آلي.
في المخيلة الشعبية، عادةً ما يرتبط "الذكاء الاصطناعي" بأفلام الخيال العلمي - عادةً من خلال تصوير ما يُسمَّى بشكل أدق بالذكاء الاصطناعي العام (AGI)، مثل HAL 9000 في فيلم 2001: ملحمة الفضاء أو شخصية آفا (Ava) في فيلم إكس ماكينا- أو ما يُسمَّى مؤخرًا بالذكاء الاصطناعيالتوليدي . لكن "الذكاء الاصطناعي" هو مصطلح شامل لأي برنامج يمكنه استخدام المعلومات لاتخاذ القرارات أو التنبؤات دون مشاركة بشرية نشطة.
إن أكثر أنظمة الذكاء الاصطناعي بدائية هي عبارة عن سلسلة من عبارات الشرط "إذا-إذن-إلا"، مع قواعد ومنطق مبرمج بشكل صريح من قِبل عالم البيانات. على أبسط مستوى، حتى منظم الحرارة البدائي هو أحد أنظمة الذكاء الاصطناعي القائم على القواعد: عند برمجته بقواعد بسيطة مثل
و
منظم الحرارة قادر على اتخاذ قرارات مستقلة دون مزيد من التدخل البشري. وعلى مستوى أكثر تعقيدًا، يمكن لشجرة القرار الكبيرة والمعقدة ـ المبنية على قواعد مبرمجة من قِبل الخبراء الطبيين ـ تحليل الأعراض والظروف والأمراض المصاحبة للمساعدة على التشخيص أو التنبؤ.2
وعلى عكس الأنظمة الخبيرة، فإن المنطق الذي يعمل به نموذج التعلم الآلي لا تتم برمجته بشكل صريح، بل يتم تعلمه من خلال التجربة. لنفترض أن هناك برنامج يقوم بتصفية رسائل البريد الإلكتروني غير المرغوب فيها: في هذه الحالة سيتطلب الذكاء الاصطناعي القائم على القواعد من عالِم البيانات وضع معايير دقيقة وعالمية يدويًا للبريد الإلكتروني غير المرغوب فيه؛ أما التعلم الآلي فلا يتطلب سوى اختيار خوارزمية مناسبة ومجموعة بيانات كافية من عينات رسائل البريد الإلكتروني. وفي أثناء التدريب، يُعرض على النموذج عينة من رسائل البريد الإلكتروني ويتنبأ بأيٍّ منها يمثل رسائل غير مرغوب فيها؛ ويتم حساب خطأ تنبؤاته، ويتم تعديل الخوارزمية لتقليل الخطأ؛ وتتكرر هذه العملية حتى يصبح النموذج دقيقًا. لقد تعلم نموذج التعلم الآلي المدرب حديثًا كيفية التعرف على البريد العشوائي.
كلما زادت تعقيدات المهام التي يُفترض أن يؤديها نظام الذكاء الاصطناعي، تصبح النماذج القائمة على القواعد أكثر هشاشة؛ إذ غالبًا ما يكون من المستحيل تحديد كل نمط ومتغيّر يجب أن يأخذه النموذج في الاعتبار بشكل صريح. ظهرت أنظمة التعلم الآلي كطريقة أساسية في الذكاء الاصطناعي، لأن تعلم الأنماط ضمن البيانات نفسها بشكل ضمني يتميز بمرونة أكبر وقابلية التوسع وسهولة الوصول.
يعمل التعلم الآلي من خلال المنطق الرياضي. ولذا يجب التعبير عن الخصائص ذات الصلة (أو "السمات") لكل نقطة بيانات رقميًا، بحيث يمكن إدخال البيانات نفسها في خوارزمية رياضية قادرة على "التعلم" لتعيين إدخال معين إلى المخرجات المطلوبة.
يتم عادةً تمثيل نقاط البيانات في التعلم الآلي في شكل متجه، حيث يتوافق كل عنصر (أو بُعد) في تضمين المتجه لنقطة البيانات مع قيمته العددية لسمة محددة. بالنسبة لأنواع البيانات التي تحمل قيمًا عددية بطبيعتها، كالبيانات المالية أو الإحداثيات الجغرافية المكانية، فإن تمثيلها المتجهي يكون بسيطًا نسبيًا ومباشرًا. لكن العديد من أنواع البيانات، مثل النصوص أو الصور أو بيانات الرسم البياني لوسائل التواصل الاجتماعي أو سلوكيات مستخدمي التطبيقات، ليست رقمية بطبيعتها، وبالتالي فهي تستلزم هندسة السمات (الخصائص) أقل بديهية للتعبير عنها بطريقة جاهزة للتعلم الآلي.
تسمى العملية (التي تتم غالبًا يدويًا) لاختيار جوانب البيانات التي سيتم استخدامها في خوارزميات التعلم الآلي باسم اختيار السمة. تعمل أساليب استخراج السمات (الخصائص) على تحسين البيانات وصولًا فقط إلى أبعادها الأكثر صلة وذات المعنى. وهما عبارة عن مجموعات فرعية من هندسة السمة، وهو التخصص الأوسع المتمثل في معالجة البيانات الخام غير المنسقة مسبقًا لاستخدامها في التعلم الآلي. وإحدى المميزات البارزة للتعلم العميق هي أنه يعمل عادةً على البيانات غير المنسقة، ويعمل على أتمتة الكثير من عملية هندسة السمة، أو على الأقل استخراج السمة. وهذا يجعل التعلم العميق أكثر قابلية للتوسع من التعلم الآلي التقليدي، وإن كان أقل منه قابلية للتفسير.
لنأخذ خوارزمية الانحدار الخطي البسيطة، على سبيل المثال العملي، وهي خوارزمية معدة للتنبؤ بأسعار بيع المنازل على أساس مزيج مرجح من ثلاثة متغيرات: المساحة المربعة، وعمر المنزل، وعدد غرف النوم. يتم تمثيل كل منزل كمتجه تضميني بثلاثة أبعاد:
الخوارزمية هي وظيفة رياضية مباشرة:
السعر = (A * قدم مربع) + (B * عدد الغرف) - (C * العمر) + السعر الأساسي
هنا ، و هي معلمات النموذج: حيث يؤدي تعديلها إلى ضبط مدى وزن النموذج لكل متغير. ويتمثل هدف التعلم الآلي في إيجاد القيم المثلى لمعلمات هذا النموذج: أو بعبارة أخرى، قيم المعلمات التي تؤدي إلى أن تُخرج الدالة الكلية أدق النتائج على الإطلاق. وبينما نجد أن معظم حالات التعلّم الآلي في العالم الحقيقي تنطوي على خوارزميات أكثر تعقيدًا مع عدد أكبر من متغيرات الإدخال، إلا أن المبدأ يبقى هو نفسه: من حيث تحسين معلمات الخوارزمية القابلة للتعديل لتحقيق أكبر دقة ممكنة.
يمكن تصنيف جميع أساليب التعلّم الآلي كواحد من ثلاثة نماذج تعلّم متميزة: التعلّم الخاضع للإشراف أو التعلّم غير الخاضع للإشراف أو التعلّم المعزز، بناءً على طبيعة أهدافها التدريبية وحسب نوع بيانات التدريب التي تستلزمها (وهذا غالبًا وليس دومًا).
يمكن لعملية التدريب الشاملة لنموذج معين أن تتضمن مناهج هجينة تستفيد من أكثر من نموذج واحد من نماذج التعلم هذه، وغالبًا ما يكون هذا هو الحال. على سبيل المثال، غالبًا ما يُستخدم التعلم غير الخاضع للإشراف للمعالجة المسبقة للبيانات لاستخدامها في التعلم الخاضع للإشراف أو التعلم المعزز. تخضع النماذج اللغوية الكبيرة (LLM) عادةً لتدريبها الأولي (التدريب المسبق) والضبط الدقيق من خلال أشكال مختلفة من التعلم الخاضع للإشراف، ثم يتبع ذلك المزيد من الضبط الدقيق من خلال تقنيات التعلم المعزز مثل التعلم المعزز من ردود فعل البشر (RLHF).
في ممارسة مماثلة لكنها متميزة، تقوم طرق التعلم الجماعي المختلفة بتجميع مخرجات خوارزميات متعددة.
تعمل خوارزميات التعلم الخاضع للإشراف على تدريب النماذج للمهام التي تتطلب الدقة، مثل التصنيف أو الانحدار. حيث يعمل التعلم الآلي الخاضع للإشراف على تشغيل أحدث نماذج التعلم العميق ومجموعة كبيرة من نماذج التعلم الآلي التي لا تزال تُستخدم على نطاق واسع في مختلف الصناعات والقطاعات.
لكي يتم قياسها وتحسين دقتها، تجب مقارنة مخرجات النموذج بالحقيقة الأساسية: المخرجات المثالية أو "الصحيحة" لأي إدخال معين. في التعلم التقليدي الخاضع للإشراف، يتم توفير هذه الحقيقة الأساسية من خلال البيانات المصنفة (الموسومة). يتم تدريب نموذج الكشف عن البريد العشوائي عبر البريد الإلكتروني على مجموعة بيانات من رسائل البريد الإلكتروني التي تم تصنيف (تسمية) كل منها على أنها
من الضروري للتعلم الخاضع للإشراف استخدام دالة الخسارة التي تقيس الاختلاف ("الخسارة") بين مخرجات النموذج والحقيقة الأساسية عبر مجموعة من الإدخالات التدريبية. يُعرّف هدف التعلم الخاضع للإشراف رياضيًا بأنه تقليل مخرجات دالة الخسارة إلى الحد الأدنى. فبمجرد حساب الخسارة، يتم استخدام خوارزميات التحسين المختلفة - والتي يتضمن معظمها حساب المشتق/المشتقات لدالة الخسارة - لتحديد تعديلات المعلمات التي ستقلل من الخسارة.
ولأن هذه العملية تتطلب في العادة التدخل البشري لتقديم حقيقة أساسية في شكل تعليقات توضيحية للبيانات، فإنها تسمى التعلم "الخاضع للإشراف". وعلى هذا النحو، كان استخدام البيانات المصنفة (الموسومة) يعتبر تاريخيًا السمة النهائية للتعلم الخاضع للإشراف. لكن على المستوى الأساسي، فإن السمة المميزة للتعلم الخاضع للإشراف هي وجود بعض الحقائق الأساسية وهدف التدريب المتمثل في تقليل ناتج دالة الخسارة التي تقيس الاختلاف عنها.
ولاستيعاب مفهوم أكثر تنوعًا للتعلم الخاضع الإشراف، تستخدم المصطلحات الحديثة للتعلم الآلي "الإشراف" أو "الإشارات الإشرافية" للإشارة بشكل عام إلى أي مصدر للحقيقة الأساسية.
يمكن أن تصبح بيانات التسمية مكلفة جدًا وتستغرق وقتًا طويلًا للمهام المعقدة ومجموعات البيانات الكبيرة. يستلزم التعلم الخاضع للإشراف الذاتي التدريب على المهام التي يتم فيها الحصول على إشارة إشرافية مباشرة من البيانات غير المصنفة (غير الموسومة) - ومن هنا جاءت تسميته بالإشراف "الذاتي".
على سبيل المثال، يتم تدريب المشفرات التلقائية على ضغط (أو ترميز) بيانات الإدخال، ثم إعادة بناء (أو فك تشفير) الإدخال الأصلي باستخدام هذا التمثيل المضغوط. ويتمثل هدف التدريب في تقليل خطأ إعادة البناء إلى الحد الأدنى، باستخدام الإدخال الأصلي نفسه كحقيقة أساسية. التعلم الخاضع للإشراف الذاتي هو أيضًا طريقة التدريب الأساسية للنماذج اللغوية الكبيرة (LLM): حيث يتم تزويد النماذج بعينات نصية بكلمات معينة مخفية أو مقنعة ومكلفة بالتنبؤ بالكلمات المفقودة.
غالبًا ما يرتبط التعلم الذاتي بالإشراف بالتعلم الانتقالي؛ لأنه يمكن أن يوفر نموذج الأساس ذا القدرات الواسعة الذي يمكن ضبطه بعد ذلك لأداء مهام أكثر تحديدًا.
بينما نجد التعلم الذاتي هو في أساسه تعلمًا خاضعًا للإشراف على بيانات غير مصنفة (غير موسومة)، فإن أساليب التعلم شبه الخاضع للإشراف تستخدم كلًّا من البيانات المصنفة والبيانات غير المصنفة. وبشكل عام، يشتمل التعلّم شبه الخاضع للإشراف على أساليب تستخدم معلومات من البيانات المصنفة (الموسومة) المتاحة لوضع افتراضات حول نقاط البيانات غير المصنفة (غير الموسومة) بحيث يمكن دمج هذه الأخيرة في عمليات التعلّم الخاضعة للإشراف.
تميّز خوارزميات التعلّم الآلي غير الخاضع للإشراف الأنماط الجوهرية في البيانات غير المصنفة (الموسومة)، مثل أوجه التشابه أو الارتباطات أو التجميعات المحتملة. فهي مفيدة جدًا في السيناريوهات التي لا تكون فيها هذه الأنماط واضحة بالضرورة للمراقبين البشريين. ولأن التعلم غير الخاضع للإشراف لا يفترض وجود مسبق لمخرجات "صحيحة" معروفة، فإنها لا تتطلب إشارات إشرافية أو دوال خسارة تقليدية - وبالتالي "غير خاضعة للإشراف".
تؤدي معظم طرق التعلم غير الخاضع للإشراف إحدى الوظائف التالية:
كما يوحي اسمها، يمكن فهم خوارزميات التعلم غير الخاضع للإشراف على نطاق واسع على أنها "تحسّن نفسها بنفسها" إلى حد ما. على سبيل المثال، يوضح هذا الرسم المتحرك كيف تقوم خوارزمية التجميع k-means بشكل متكرر بتحسين مركز كل مجموعة على حدة. ولذا يركز تحدي تدريب النماذج غير الخاضعة للإشراف على المعالجة المسبقة الفعالة للبيانات وضبط المعلمات الفائقة التي تؤثر على عملية التعلم لكنها غير قابلة للتعلم في حد ذاتها، مثل معدل التعلم أو عدد المجموعات.
بينما يقوم التعلم الخاضع للإشراف بتدريب النماذج من خلال تحسينها لتطابق الأمثلة المثالية، وتقوم خوارزميات التعلم غير الخاضع للإشراف بتكييف نفسها مع مجموعة البيانات، يتم تدريب نماذج التعلم المعزز بشكل شامل من خلال التجربة والخطأ. ويتم استخدامها بشكل بارز في الروبوتات وألعاب الفيديو ونماذج التفكير وحالات الاستخدام الأخرى التي يكون فيها فضاء الحلول والأساليب الممكنة كبيرة بشكل خاص أو مفتوحة أو يصعب تعريفها. في الكتابات المعنية بالتعلم المعزز، غالبًا ما يُشار إلى نظام الذكاء الاصطناعي باسم "الوكيل".
بدلًا من أزواج بيانات الإدخال والإخراج المستقلة المستخدمة في التعلم الخاضع للإشراف، يعمل التعلم المعزز (RL) على مجموعات بيانات الحالة-الفعل-المكافأة المترابطة. بدلًا من تقليل الخطأ، فإن الهدف من التعلم المعزز هو تحسين المعلمات أقصى قدر من المكافأة.
يعتمد الإطار الرياضي للتعلم بالتعزيز بشكل أساسي على العناصر التالية:
في طرق التعلم المعزز المستندة إلى السياسة مثل تحسين السياسة القريبة (PPO)، يتعلم النموذج كل سياسة بشكل مباشر. في الأساليب القائمة على القيمة مثل التعلّم الكميّ، يتعلّم الوكيل دالة قيمة تحسب درجة جودة" كل حالة، ثم يختار الإجراءات التي تؤدي إلى حالات ذات قيمة أعلى. لنضرب مثالًا على ذلك بالمتاهة: فالوكيل القائم على السياسة يتعلم "عند هذه الزاوية، انعطف يسارًا"، بينما الوكيل القائم على القيمة يتعلم درجة لكل موضع وينتقل ببساطة إلى الموضع المجاور الذي درجته تعد أفضل حركة. وتتعلم الأساليب المختلطة دالة قيمة يتم استخدامها بعد ذلك لتحسين السياسة، مثل أساليب الفاعل والناقد (أي أن جزءًا يُنفذ الفعل وآخر يُقيّم هذا الفعل).
في التعلم المعزز العميق، يتم تمثيل السياسة على شكل Neural Networks.
يستخدم التعلم العميق شبكات عصبية ذات طبقات متعددة - ومن هنا جاءت تسميتها "عميقة" - بدلًا من الخوارزميات المصممة للتعلم الآلي بشكل صريح. ورغم أن الشبكات العصبية ظهرت في وقت مبكر من تاريخ التعلم الآلي، إلا أنه لم يتم ذلك إلا في أواخر العقد الأول من القرن الحادي والعشرين وأوائل العقد الثاني من القرن الحادي والعشرين، بفضل التقدم في وحدات معالجة الرسومات، حيث أصبحت الشبكات العصبية هي السائدة في معظم المجالات الفرعية للذكاء الاصطناعي.
تتألف الشبكات العصبية، المستوحاة، بشكل تقريبي غير محكم، من الدماغ البشري، من طبقات مترابطة من "الخلايا العصبية" (أو العُقد)، تقوم كل منها بتنفيذ عملية رياضية خاصة بها (تسمى "دالة التنشيط"). يعمل إخراج كل دالة تنشيط لكل عقدة كمدخل لكل عقدة من عقد الطبقة التالية وهكذا حتى الطبقة النهائية، حيث يتم حساب الإخراج النهائي للشبكة. والأهم من ذلك أن دوال التنشيط التي يتم إجراؤها في كل عقدة تكون غير خطية، مما يتيح للشبكات العصبية نمذجة الأنماط المعقدة والتبعيات.
يتم تعيين وزن فريد لكل اتصال بين خليتين عصبيتين: وهو مضاعِف يزيد من مساهمة إحدى الخلايا العصبية في خلية عصبية في الطبقة التالية أو يقللها. هذه الأوزان، إلى جانب مصطلحات التحيز الفريدة المضافة إلى دالة تنشيط كل خلية عصبية، تعد هي المعلمات التي سيتم تحسينها من خلال التعلم الآلي.
تتيح خوارزمية الانتشار الخلفي حساب كيفية مساهمة كل عقدة فردية في الناتج الإجمالي لدالة الخسارة، مما يسمح بتحسين ملايين أو مليارات أوزان النموذج بشكل فردي من خلال خوارزميات الانحدار التدرجي . نظرًا لمتطلبات الحجم والدقة التفصيلية للتحديثات المطلوبة لتحقيق أفضل النتائج، يتطلب التعلم العميق كميات كبيرة جدًا من البيانات والموارد مقارنةً بالتعلم الآلي.
يمنح هذا الهيكل الموزع نماذج التعلم العميق قوتها المذهلة وتعدد استخداماتها. تخيل بيانات التدريب كنقاط بيانات مبعثرة على رسم بياني ثنائي الأبعاد. يهدف التعلّم الآلي التقليدي بشكل أساسي إلى إيجاد منحنًى واحد يمر عبر كل نقطة من نقاط البيانات هذه، بينما يهدف التعلّم العميق إلى تجميع عدد عشوائي من الخطوط الأصغر حجمًا والقابلة للتعديل بشكل فردي لتشكيل الشكل المطلوب. الشبكات العصبية هي مقرِّبات عالمية: فقد ثبت نظريًا أنه لأي وظيفة، يوجد ترتيب شبكة عصبية يمكنه إعادة إنتاجها.3، 4
وبعد التسليم لهذه الحقيقة، لا يعني أن مجرد كون الشيء ممكنًا نظريًا أنه يمكن تحقيقه عمليًا من خلال أساليب التدريب الحالية. لسنوات عديدة، ظل الأداء الكافي في بعض المهام بعيد المنال حتى بالنسبة لنماذج التعلم العميق - لكن مع مرور الوقت، أدت التعديلات التي أُدخلت على بنية الشبكة العصبية القياسية إلى فتح القدرات الجديدة لنماذج التعلم الآلي.
تضيف الشبكات العصبية التلافيفية (CNN) طبقات تلافيفية إلى neural networks. في الرياضيات، التدوير هو عملية تقوم فيها دالة بتعديل (أو تدوير) دالة أخرى. في شبكات CNN، يتم استخدام الطبقات التلافيفية لاستخراج السمات (الخصائص) المهمة من البيانات عن طريق تطبيق "مرشحات" مرجحة. ترتبط شبكات CNN في المقام الأول بنماذج الرؤية الكمبيوتر وبيانات الصور، ولكن لها عدد من حالات الاستخدام المهمة الأخرى.
تم تصميم الشبكات العصبية المتكررة (RNN) للعمل على البيانات المتسلسلة. وفي حين أن الشبكات العصبية التقليدية تقوم بتعيين إدخال واحد لمخرج واحد، فإن الشبكات العصبية المغذية المتكررة تقوم بتعيين سلسلة من الإدخال لمخرج واحد من خلال العمل في حلقة متكررة حيث يعمل مخرج خطوة معينة في تسلسل الإدخال كإدخال لحساب الخطوة التالية. وهذا في الواقع يؤدي إلى إيجاد "ذاكرة" داخلية، تُسمى الحالة المخفية، والتي تسمح لشبكات RNN بفهم السياق والنظام.
كانت نماذج المحولات، التي تم تقديمها لأول مرة في عام 2017، مسؤولة إلى حد كبير عن ظهور النماذج اللغوية الكبيرة (LLM) في التعلم الآلي وغيرها من ركائز الذكاء الاصطناعي التوليدي، وتحقيق نتائج متطورة في معظم المجالات الفرعية للتعلم الآلي. مثل شبكات RNN، تم تصميم المحولات ظاهريًا للبيانات المتسلسلة، لكن الحلول الذكية أتاحت معالجة معظم طرق البيانات بواسطة المحولات. تأتي القوة الفريدة لنماذج المحولات من آلية الانتباه المبتكرة الخاصة بها، والتي تمكِّن النماذج من التركيز بشكل انتقائي على أجزاء بيانات الإدخال الأكثر صلة في لحظة محددة في التسلسل الواحد.
نماذج مامبا هي شبكات عصبية جديدة نسبيًا، تم تقديمها لأول مرة في عام 2023، استنادًا إلى اختلاف فريد من نماذج فضاء الحالة (SSM). مثل المحولات، توفر نماذج مامبا وسيلة مبتكرة لتحديد أولويات المعلومات الأكثر صلة بشكل انتقائي في لحظة معينة. برزت نماذج مامبا مؤخرًا كمنافس لبنية المحولات، خاصة بالنسبة للنماذج اللغوية الكبيرة (LLM).
تندرج معظم التطبيقات من التعلم الآلي ضمن فئة أو أكثر من الفئات، والتي يتم تحديدها في المقام الأول من خلال حالة الاستخدام وطرائق البيانات التي تعمل عليها.
رؤية الكمبيوتر هي المجال الفرعي للذكاء الاصطناعي المعني ببيانات الصور وبيانات الفيديو وغيرها من طرائق البيانات الأخرى التي تتطلب نموذجًا أو آلة "للرؤية"، بدءًا من تشخيص الرعاية الصحية إلى التعرف على الوجه إلى السيارات ذاتية القيادة. تشمل المجالات الفرعية البارزة في مجال رؤية الكمبيوتر تصنيف الصور، كشف، وتجزئة الصور، والتعرف الضوئي على الحروف (OCR).
يشتمل مجال معالجة اللغة الطبيعية (NLP) على مجموعة متنوعة من المهام المتعلقة بالنصوص والكلام وبيانات اللغة الأخرى. تشمل المجالات الفرعية البارزة للبرمجة اللغوية العصبية روبوت المحادثة، والتعرف على الكلام، وترجمة اللغة، وتحليل المشاعر، وإنشاء النص، والتلخيص، ووكيل الذكاء الاصطناعي. في البرمجة اللغوية العصبية الحديثة، نرى نماذج اللغات الكبيرة مستمرة في تطوير أحدث ما توصلت إليه التكنولوجيا وبوتيرة غير مسبوقة.
يتم تطبيق نماذج السلاسل الزمنية على كشف حالات الشذوذ وتحليل السوق ومهام التعرف على الأنماط أو التنبؤ ذات الصلة. يستخدمون التعلم الآلي على البيانات التاريخية لمجموعة متنوعة من حالات الاستخدام.
يمكن استخدام نماذج الانتشار والتشفير الذاتي المتغير (VAE) وشبكات الخصومة التوليدية (GAN) لإنشاء صور أصلية تطبق أنماط البكسل المستفادة من بيانات التدريب.
عمليات التعلم الآلي (MLOps) عبارة عن مجموعة من الممارسات لتطبيق نهج خط التجميع لبناء نماذج التعلم الآلي ونشرها وصيانتها.
يعد التنسيق الدقيق والمعالجة المسبقة لبيانات التدريب، علاوة على اختيار النموذج المناسب، من الخطوات الحاسمة في مسار MLOps. إن التحقق المدروس بعد التدريب، بدءًا من تصميم مجموعات البيانات المرجعية وصولًا إلى تحديد أولويات مقاييس معينة، يعد ضروريًا لضمان أن النموذج يتمتع بقدرة جيدة على التعميم (وليس أنه مجرد تجهيز مفرط لبيانات التدريب).
بعد النشر، تجب مراقبة النماذج بحثًا عن انحراف النموذج ومشكلات كفاءة الاستدلال والتطورات السلبية الأخرى. إن الممارسة المحددة جيدًا للحوكمة النموذجية ضرورية لاستمرار الكفاءة والفاعلية، خاصة في الصناعات الخاضعة للتنظيم أو سريعة التغير.
يوجد عدد من الأدوات والمكتبات والأطر مفتوحة المصدر لبناء مشاريع التعلم الآلي وتدريبها واختبارها. في حين أن مثل هذه المكتبات تقدم مجموعة من الوحدات النمطية والملخصات المعدة مسبقًا لتبسيط عملية بناء النماذج القائمة على التعلم الآلي وسير العمل، فسوف يحتاج الممارسون إلى التعرف على لغات البرمجة المستخدمة بشكل شائع - وخاصة Python- للاستفادة منها بشكل كامل.
تتضمن مكتبات المصدر المفتوح البارزة، وخاصةً في بناء نماذج التعلم العميق، كلًّا من PyTorch وTensorFlow وKeras ومكتبة Hugging Face Transformers.
من الأمثلة على مكتبات التعلم الآلي مفتوحة المصدر الشهيرة التي تركز على التعلم الآلي التقليدي: مكتبات Pandas وScikit-learn وXGBoost وMatplotlib وSciPy وNumPy وغيرها من المكتبات الأخرى العديدة.
تحتفظ شركة IBM نفسها وتقوم بتحديث مكتبة كبيرة من البرنامج التعليمي للمبتدئين والممارسين المتقدمين في مجال التعلم الآلي على حد سواء.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
كل الروابط موجودة خارج موقع ibm.com
1. "Some Studies in Machine Learning Using the Game of Checkers," IBM Journal (accessed through MIT), 3 July 1959
2. "Using Decision Trees as an Expert System for Clinical Decision Support for COVID-19," Interactive Journal of Medical Research, Vol 12, 30 January 2023
3. "Kolmogorov's Mapping Neural Network Existence Theorem," Proceedings of the IEEE First International Conference on Neural Networks (accessed through University of Waterloo), 1987
4. "Multilayer Feedforward Networks with a Non-Polynomial Activation Function Can Approximate Any Function," Center for Research on Information Systems (New York University), March 1992