أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
في العصر الحديث للذكاء الاصطناعي، نرى الممارسين يقومون ببناء نماذج التعلم الآلي من الانحدارات الخطية البسيطة إلى الشبكات العصبية المعقدة والمتطورة والنماذج اللغوية الكبيرة التوليدية (LLM). ونرى أيضًا علم البيانات الشامل وتحليل البيانات يتم إجراؤه للتنبؤ بانخفاض عدد العملاء وأنظمة التوصية (اقتراح منتجات) وحالات الاستخدام الأخرى. ومع ذلك، على الرغم من أن نماذج التعلم الآلي قد تبدو وكأنها تعمل على مجموعة البيانات ضخمة وخوارزميات قوية، فإنها في الداخل عبارة عن عملية إحصائية.
يعتمد التعلم الآلي على تقنيات إحصائية وأدوات حسابية في علم الرياضيات - بما في ذلك الأساليب البايزية والجبر الخطي والاستراتيجية - والتي تضفي هيكلًا ودقة على العملية. فسواء أكنت تقوم ببناء مصنِّف غير خطي أم ضبط نظام توصية أم تطوير نموذج توليدي في Python، فأنت تطبق المبادئ الأساسية للتعلم الآلي.
عندما تقوم بتدريب نموذج، فأنت تقوم بتقدير المعلمات من البيانات. وعندما تختبره، فأنت تسأل: هل هذا النمط حقيقي أم مجرد ضجيج بيانات عشوائية؟ كيف يمكننا تحديد الخطأ باستخدام مقاييس التقييم؟ هذه أسئلة إحصائية. وتساعدنا عملية الاختبار الإحصائي على بث الثقة في بناء وتفسير المقاييس. ولا يعد فهم هذه المتطلبات الأساسية أمرًا أساسيًا فحسب، بل هو ضروري لبناء أنظمة ذكاء اصطناعي قوية وقابلة للتفسير ترتكز على علوم الحاسوب والمنطق الرياضي.
تفكك هذه المقالة الركائز الإحصائية وراء التعلم الآلي الحديث، ليس فقط لإزالة الغموض عن الرياضيات، لكن لتزويدك بالنماذج الذهنية اللازمة لبناء وتصحيح وتفسير أنظمة التعلم الآلي بثقة.
سنستعرض ستة مفاهيم مترابطة:
1. الإحصاء: ما هو الإحصاء بشكل أساسي وكيف يتم استخدامه في الذكاء الاصطناعي الحديث؟
2. الاحتمالية: كيف نحدد مقدار عدم اليقين في البيانات؟
3. التوزيعات: كيفية نمذجة سلوك البيانات؟
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
الإحصاء هو علم استخراج الرؤى من البيانات. فهو ينظم ويحلل ويفسر المعلومات للكشف عن الأنماط واتخاذ القرارات في ظل عدم اليقين. وفي سياق علم البيانات وخوارزميات التعلم الآلي، توفر الإحصاءات الأساس الرياضي لفهم سلوك البيانات وتوجيه خيارات النماذج وتقييم النتائج. فهو يحوّل مجموعات البيانات الفوضوية والضجيجية إلى معلومات استخباراتية قابلة للتنفيذ.
يعتمد التعلم الآلي الحديث على الأساليب الإحصائية. فسواء أكنت تطبق التعلم الخاضع للإشراف (على سبيل المثال، الانحدار أو التصنيف)، أو التعلم غير الخاضع للإشراف (على سبيل المثال، المجموعة)، أو التعلم المعزز، فإنك تستخدم أدوات متجذرة في الاستدلال الإحصائي. وتمكننا الإحصائيات من تحديد عدم اليقين والتعميم من العينات واستخلاص استنتاجات حول مجموعات سكانية أوسع - وكلها ضرورية لبناء أنظمة ذكاء اصطناعي جديرة بالثقة.
قبل نماذج التدريب، نقوم بإجراء تحليل البيانات الاستكشافية (EDA) - وهي عملية تعتمد على الإحصائيات الوصفية لتلخيص الخصائص الرئيسية للبيانات. حيث تخبرنا هذه الملخصات عن النزعة المركزية والتباين لكل سمة، مما يساعدنا على تحديد القيم الخارجية ومشكلات جودة البيانات واحتياجات المعالجة المسبقة. ويُعد فهم هذه الخصائص شرطًا أساسيًا لبناء نماذج فعالة واختيار خوارزميات التعلم الآلي المناسبة.
المتوسط الحسابي للقيم. وهو شائع في قياس المركزية وفي دوال الخسارة مثل خطأ المتوسط التربيعي (MSE).
مثال: إذا كانت قيم شراء العملاء آخذة في الازدياد، فإن المتوسط يكتشف التحولات في السلوك.
القيمة الوسطى عند فرز البيانات. أكثر قوة في مواجهة القيم المتطرفة من المتوسط.
مثال: عند التعامل مع بيانات الدخل، فإن الوسيط يمثل الحالة 'المتوسطة' بشكل أفضل في حال وجود توزيع غير متماثل للثروة.
القيمة الأكثر تكرارًا. مفيد للسمات الفئوية أو التصويت بالأغلبية (كما هو الحال في بعض أساليب المجموعة).
مثال: العثور على المتصفح الأكثر شيوعًا الذي يستخدمه زوار الموقع.
يقيس مدى انتشار القيم من المتوسط. يشير الانحراف المعياري المنخفض إلى أن نقاط البيانات مجمعة بالقرب من المتوسط، بينما يشير الانحراف المعياري المرتفع إلى تباين أكبر.
مثال: عند التحقق من صحة النموذج، قد تحتاج السمة ذات التباين العالي إلى تسوية لتجنب التغلب على الآخرين في الخوارزميات القائمة على المسافة مثل خوارزميات الجيران الأقرب.
النطاق بين النسب المئوية 75 و25 (Q3 - Q1). فهو يلتقط 50% من البيانات الوسطى ويعد مفيدًا للكشف عن القيمة الخارجية.
مثال: في مهمة تقسيم العملاء، قد يشير معدل الذكاء المرتفع في الإنفاق إلى سلوك غير متناسق عبر المجموعات الفرعية.
يشير إلى عدم تناسق التوزيع. يشير الانحراف الموجب إلى ذيل أيمن أطول، بينما يشير الانحراف السالب إلى ذيل أيسر أطول. قد تنتهك السمات المنحرفة افتراضات النماذج الخطية أو تضخم المقاييس المستندة إلى المتوسط.
مثال: قد تتطلب التوزيعات ذات الانحراف الأيمن (مثل الدخل) تحويلًا قبل تطبيق الانحدار.
يصف مدى "ثقل ذيول" التوزيع، أي مدى احتمالية وجود قيم متطرفة. يعني التفرطح العالي وجود قيم متطرفة أكثر تكرارًا، بينما يشير التفرطح المنخفض إلى توزيع أكثر تسطحًا.
مثال: عند الكشف عن الغش، قد يشير التفرطح العالي في مبالغ المعاملات إلى أنماط إنفاق غير طبيعية.
توجه هذه المقاييس أيضًا قرارات المعالجة المسبقة مثل التسوية أو التوحيد أو التضمين وتؤثر على كيفية هندسة السمات (الخصائص) الجديدة.
أثناء تقييم الفرص الوظيفية، تساعدنا الإحصائيات الوصفية على:
يساعدنا فهم البيانات باستخدام الإحصائيات أيضًا على إعداد النماذج للتعامل مع مجموعات البيانات الكبيرة وتقييم مقاييس النموذج والتخفيف من المخاطر مثل الإفراط في التجهيز. فعلى سبيل المثال، قد تكشف الملخصات الوصفية عن فئات غير متوازنة أو مقاييس ميزات تتطلب تسوية؛ وكلتاهما تؤثران على أداء النموذج ونزاهته.
إن النمذجة باستخدام التعلم الآلي موجودة؛ بسبب عدم اليقين. فإذا كان بوسعنا ربط المدخلات بالمخرجات بشكل مثالي، فلن تكون هناك حاجة إلى النماذج. لكن بيانات العالم الواقعي فوضوية وغير مكتملة وضجيجية - لذا نقوم بنمذجة الاحتمالات بدلًا من اليقين. والتعرف على الاحتمالات يضع أساسيات كل ما يتعلق بالتعلم الآلي والذكاء الاصطناعي. تسمح لنا النظريات في الاحتمالات بفهم البيانات التي استخدمناها لنمذجتها بطريقة جميلة وأنيقة. ويمثل دورًا حساسًا في نمذجة عدم اليقين في تنبؤات نماذج التعلم الآلي. ويساعدنا على تحديد كمية الاحتمالية والرجحان واليقين في نموذج إحصائي، لكي نتمكن من قياس مخرجات النماذج التي ننشئها بثقة. ويساعد التعمق في عالم الاحتمالات وتعلم الأساسيات على ضمان فهمك لأساس جميع نماذج التعلم الإحصائي وكيف تظهر تنبؤاتها. وسوف تتعلم كيف يمكننا الاستدلال وإنتاج نتائج احتمالية.
ولكي تتمكن من تعلم التوزيعات الشائعة ونمذجة بياناتك بثقة، دعنا ننتقل الآن إلى الأساسيات ونوضح بعض المصطلحات.
المتغير العشوائي: تمثيل عددي لناتج ظاهرة عشوائية. فهو متغير تكون قيمه الممكنة عبارة عن نتائج عددية لعملية عشوائية.
المتغير العشوائي المتقطع: متغير عشوائي يمكن أن يأخذ عددًا محدودًا أو غير محدود من القيم المختلفة. على سبيل المثال، نتيجة قلب العملة (الرؤوس = 1، Tails = 0)، أو عدد رسائل البريد الإلكتروني غير المرغوب فيها المستلمة في ساعة.
المتغير العشوائي المتواصل: متغير عشوائي يمكن أن يأخذ أي قيمة ضمن نطاق معين. على سبيل المثال، ارتفاع الشخص أو درجة الحرارة في الغرفة أو كمية هطول الأمطار.
الحدث: مجموعة من ناتج واحد أو أكثر من عملية عشوائية. على سبيل المثال، الحصول على رقم زوجي على حجر النرد (النتائج: 2، 4، 6) أو تخلي العميل عن الخدمة.
النتيجة: نتيجة واحدة محتملة لتجربة عشوائية. على سبيل المثال، عند رمي العملة المعدنية سيظهر إما "وجه" أو "ظهر".
الاحتمالية مقياس رقمي لاحتمالية وقوع حدث: سوف يحدث، يتراوح من 0 (مستحيل) إلى 1 (مؤكد).
الاحتمال الشرطي : احتمال وقوع الحدث يحدث، بالنظر إلى أن الحدث قد حدث بالفعل. هذه الخطوة حاسمة في التعلم الآلي، حيث نريد غالبًا التنبؤ بنتيجة بالنظر إلى سمات محددة.
الاحتمال هو مقياس لمدى احتمال وقوع حدث ما، من 0 (مستحيل) إلى 1 (مؤكد).
في التعلم الآلي، غالبًا ما يأخذ هذا شكل الاحتمال الشرطي
مثال: قد يقول نموذج الانحدار اللوجستي
> "بافتراض أن العمر = 45، والدخل = 60 ألف دولار أمريكي، والسجل السابق،
> فإن احتمال تخلي العميل عن الخدمة هو 0.82".
هذا المثال لا يعني أن العميل سوف يتخلى عن الخدمة بالضرورة، بل هو اعتقاد مبني على الأنماط الإحصائية الموجودة في بيانات التدريب.
في العصر الحديث للذكاء الاصطناعي التوليدي، تمثل النماذج الاحتمالية مثل الانحدار دورًا كبيرًا في تحديد النتائج ومخرجات النموذج. وغالبًا ما يكون هذا الدور في شكل دالة تنشيط في طبقات الشبكات العصبية.
التوزيع الاحتمالي هو دالة رياضية تصف القيم والاحتمالات الممكنة التي يمكن أن يأخذها متغير عشوائي ضمن نطاق معين. ويُعد فهم التوزيعات أمرًا بالغ الأهمية في التعلم الآلي؛ لأن البيانات نادرًا ما توجد كنقاط مفردة ومعزولة، بل تمتلك بنية و"شكلًا". فيما يلي بعض المصطلحات التي نحتاج إلى تحديدها:
يعتبر وضع الافتراضات الصحيحة حول توزيع بياناتك أمرًا حساسًا؛ حيث تعتمد العديد من خوارزميات التعلم الآلي على هذه الافتراضات لاختيار النموذج وتفسيره. ويمكن للافتراضات غير الصحيحة أن تؤدي إلى تقديرات متحيزة ودوال خسارة غير متوائمة وفي نهاية المطاف، تحصل على تعميم ضعيف أو استنتاجات غير صحيحة في التطبيقات الواقعية.
ترتكز التوزيعات الاحتمالية على ما يلي:
يُنمذِج توزيع برنولي احتمال النجاح أو الفشل في محاولة واحدة لحدث عشوائي متقطع. أي أن له نتيجتين اثنتين فقط: 1 (نجاح) أو 0 (فشل). فهو أبسط أنواع التوزيعات المستخدمة في الإحصاء، ومع ذلك فهو يشكل الأساس للعديد من مسائل التصنيف في التعلم الآلي. على سبيل المثال، إذا كنت ستقلب عملة معدنية 10 مرات، وحصلت على 7 مرات وجه (نجاح) و3 مرات ظهر (فشل)، فيمكن رسم دالة كتلة الاحتمال (PMF) على النحو التالي:
قلب العملة المعدنية هو تجربة برنولي الكلاسيكية. دعنا نطبق دالة كتلة الاحتمال على مثال رمي العملة المعدنية
- لنفترض أن هو متغير عشوائي يمثل ناتج رمية واحدة.
- إذا كان ظهور الوجه يعتبر نجاحًا، فإننا نحدد للوجه و للظهر
- إذا كانت العملة سليمة، فإن احتمال ظهور الوجه هو
دالة الكتلة الاحتمالية (PMF) لتوزيع بيرنولي هي:
حيث:
يُعد فهم دالة الكتلة الاحتمالية لتوزيع برنولي ضروريًا؛ لأنها تشكل الركيزة الأساسية الاحتمالية للعديد من نماذج التصنيف وعلى وجه الخصوص، لا يقوم الانحدار اللوجستي بإخراج تسمية فئة فقط، بل يقدِّر احتمالية أن ينتمي إدخال معين إلى الفئة 1. ويتم تفسير هذا الاحتمال المتوقع على أنه المعلمة p في توزيع برنولي:
تضمن الدالة اللوجستية (سيجمويد) المستخدمة في الانحدار اللوجستي أن القيم المتوقعة تقع ضمن النطاق [0،1]، مما يجعلها احتمالات برنولي صالحة. ويتم تدريب النموذج على تعظيم احتمالية ملاحظة النتائج الثنائية الحقيقية في ظل افتراض أن كل قيمة مستهدفة مستمدة من توزيع برنولي مع احتمال 𝑝 متوقعة من السمات 𝑋. وفي هذه الحالة، نظرًا لأننا نريد تقليل خسارة التدريب إلى الحد الأدنى، فإننا نتبع نهج تقدير الاحتمالية القصوى (MLE) لتعظيم احتمالية نتيجة ما، نظرًا للبيانات. وعادةً، بالنسبة للتوزيع المنفصل مثل برنولي، نقوم بتحويل الاحتمال إلى احتمالية للتعامل معه بسهولة أكبر. والرجحان، مثله مثل الاحتمالات النسبية، غير متناسب (لا يتزايد خطيًا)، لذلك نطبق عادةًً تحويلًا لوغاريتميًا - يُعرف باسم لوغاريتم الرجحان، وتُعرف دالة الخسارة الناتجة باسم خسارة اللوغاريتم. إذا كان هذا القسم يبدو مربكًا بعض الشيء، يمكنك زيارة شرح الانحدار اللوجستي المذكور سابقًا للحصول على استنتاج خطوة بخطوة لدالة الاحتمال اللوغاريتمي باستخدام طريقة تقدير الاحتمال الأقصى (MLE). ويوفر هذا الاتصال الأساس الإحصائي لتفسير المخرجات على أنها تقديرات احتمالية. تشمل التطبيقات الأخرى ما يلي:
يصف التوزيع الطبيعي متغيرًا عشوائيًا متصلًا تميل قيمه إلى المجموعة حول متوسط مركزي، مع تباين متماثل في كلا الاتجاهين. فهو موجود في كل مكان في الإحصاء لأن العديد من الظواهر الطبيعية (الطول، درجات الاختبار، أخطاء القياس) تتبع هذا النمط، خاصة عند تجميعها عبر العينات.
لنفترض أنك تسجل طول عدد 1000 شخص بالغ. رسم هذه البيانات بيانيًا يعطينا منحنًى على شكل جرس: يكون معظم الأشخاص قريبين من المتوسط، مع وجود عدد أقل عند النهايات. ويتم التقاط هذا الشكل بواسطة دالة كثافة الاحتمال (PDF) للتوزيع الطبيعي:
حيث:
في صميم كل نظام تعلّم آلي يكمن العمود الفقري الإحصائي، فهو الهيكل الداعم غير المرئي الذي يدعم كل شيء بدءًا من تصميم النموذج إلى التفسير. وبدأنا باستكشاف ما هو الإحصاء، وعلمنا أنه ليس مجرد فرع من فروع الرياضيات، بل لغة لفهم عدم اليقين واستخراج المعنى من البيانات. حيث توفر الإحصائيات الوصفية العدسة الأولى التي ندرس من خلالها تعقيد العالم من حولنا ونلخص، مما يوفر الوضوح قبل أن تبدأ النمذجة.
ثم بعد ذلك، تعمقنا في الاحتمالات، وهي مجموعة الأدوات الرسمية للتفكير في ظل عدم اليقين. في التعلُّم الآلي، تساعدنا الاحتمالات على تحديد مدى احتمالية حدوث نتيجة ما، مما يمكّن النماذج من التعبير عن الثقة بدلًا من مجرد التنبؤات الصعبة. وسواء أكان الأمر يتعلق باحتمالية تخلي العميل عن الخدمة أم ترجيح صنف (تسمية) في التصنيف، فإن نظرية الاحتمالات تحوّل البيانات غير المنسَّقة إلى رؤى قابلة للتفسير.
ثم أخيرًا، استكشفنا التوزيعات، والتي تحدد كيفية تصرف البيانات عبر سيناريوهات مختلفة. وعلمنا أن فهم هذه التوزيعات أمر بالغ الأهمية؛ بدءًا من توزيع برنولي المنفصل الذي يمثل النتائج الثنائية، إلى التوزيع الغاوسي المتواصل الذي يشكل افتراضاتنا في نماذج الانحدار والنماذج التوليدية. فهي تدعم كلًّا من البيانات التي نلاحظها والخوارزميات التي نبنيها، وتوجيه اختيار النموذج، وتشكيل دوال الخسارة وتمكين الاستدلال الهادف.
في خوارزميات التعلم الآلي الحديثة، من الانحدار اللوجستي والبايز الساذج إلى التعلم العميق وطرق النواة، فإن هذه المبادئ الإحصائية ليست إضافات اختيارية بل هي آليات التعلم الآلي ذاتها. تساعدنا على التفكير في حالة عدم اليقين وتحسين الأداء وتعميم من الملاحظات المحدودة إلى اتخاذ القرارات في العالم الحقيقي. من خلال إتقان هذه الأسس، فأنت لا تتعلم فقط استخدام التعلم الآلي؛ بل تتعلم فهمه وبناءه والاستدلال منه.
حتى في عصر الذكاء الاصطناعي التوليدي ونماذج التعلُّم العميق واسعة النطاق، تظل الإحصاءات أكثر أهمية من أي وقت مضى. وراء كل طبقة محول وخطوة انتشار يكمن أساس مبني على افتراضات الاحتمالات والتقدير والتوزيع. إن فهم مفاهيم مثل الموازنة بين التحيز والتباين وعدم اليقين ليس مجرد أمر أكاديمي، بل هو ضروري لتفسير نماذج الصندوق الأسود، وتشخيص أوضاع الفشل، وبناء الذكاء الاصطناعي المسؤول والقابل للتفسير. سواء أكنت تقوم بضبط نموذج الأساس، أم تطبق تقنيات بايزية لتقدير عدم اليقين أم تقييم المخرجات التوليدية، فإن المنطق الإحصائي يزودك بالأدوات اللازمة للتغلب على التعقيد بوضوح. مع تنامي قوة الذكاء الاصطناعي التوليدي، فإن ترسيخ ممارستك في الأساسيات الإحصائية يضمن أن تظل نماذجك ليست فقط على أحدث طراز، بل أيضًا مبنية على المبادئ وجديرة بالثقة.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.