ما التعلم الآلي الإحصائي؟

المؤلفون

Fangfang Lee

Developer Advocate

IBM

التعلم الآلي الإحصائي

مقدمة: ما هو التفكير الإحصائي في التعلم الآلي؟

في العصر الحديث للذكاء الاصطناعي، نرى الممارسين يقومون ببناء نماذج التعلم الآلي من الانحدارات الخطية البسيطة إلى الشبكات العصبية المعقدة والمتطورة والنماذج اللغوية الكبيرة التوليدية (LLM). ونرى أيضًا علم البيانات الشامل وتحليل البيانات يتم إجراؤه للتنبؤ بانخفاض عدد العملاء وأنظمة التوصية (اقتراح منتجات) وحالات الاستخدام الأخرى. ومع ذلك، على الرغم من أن نماذج التعلم الآلي قد تبدو وكأنها تعمل على مجموعة البيانات ضخمة وخوارزميات قوية، فإنها في الداخل عبارة عن عملية إحصائية.

يعتمد التعلم الآلي على تقنيات إحصائية وأدوات حسابية في علم الرياضيات - بما في ذلك الأساليب البايزية والجبر الخطي والاستراتيجية - والتي تضفي هيكلًا ودقة على العملية. فسواء أكنت تقوم ببناء مصنِّف غير خطي أم ضبط نظام توصية أم تطوير نموذج توليدي في Python، فأنت تطبق المبادئ الأساسية للتعلم الآلي.

عندما تقوم بتدريب نموذج، فأنت تقوم بتقدير المعلمات من البيانات. وعندما تختبره، فأنت تسأل: هل هذا النمط حقيقي أم مجرد ضجيج بيانات عشوائية؟ كيف يمكننا تحديد الخطأ باستخدام مقاييس التقييم؟ هذه أسئلة إحصائية. وتساعدنا عملية الاختبار الإحصائي على بث الثقة في بناء وتفسير المقاييس. ولا يعد فهم هذه المتطلبات الأساسية أمرًا أساسيًا فحسب، بل هو ضروري لبناء أنظمة ذكاء اصطناعي قوية وقابلة للتفسير ترتكز على علوم الحاسوب والمنطق الرياضي.

تفكك هذه المقالة الركائز الإحصائية وراء التعلم الآلي الحديث، ليس فقط لإزالة الغموض عن الرياضيات، لكن لتزويدك بالنماذج الذهنية اللازمة لبناء وتصحيح وتفسير أنظمة التعلم الآلي بثقة.

سنستعرض ستة مفاهيم مترابطة:

1. الإحصاء: ما هو الإحصاء بشكل أساسي وكيف يتم استخدامه في الذكاء الاصطناعي الحديث؟

2. الاحتمالية: كيف نحدد مقدار عدم اليقين في البيانات؟

3. التوزيعات: كيفية نمذجة سلوك البيانات؟

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

ما الإحصاء؟

الإحصاء هو علم استخراج الرؤى من البيانات. فهو ينظم ويحلل ويفسر المعلومات للكشف عن الأنماط واتخاذ القرارات في ظل عدم اليقين. وفي سياق علم البيانات وخوارزميات التعلم الآلي، توفر الإحصاءات الأساس الرياضي لفهم سلوك البيانات وتوجيه خيارات النماذج وتقييم النتائج. فهو يحوّل مجموعات البيانات الفوضوية والضجيجية إلى معلومات استخباراتية قابلة للتنفيذ.

يعتمد التعلم الآلي الحديث على الأساليب الإحصائية. فسواء أكنت تطبق التعلم الخاضع للإشراف (على سبيل المثال، الانحدار أو التصنيف)، أو التعلم غير الخاضع للإشراف (على سبيل المثال، المجموعة)، أو التعلم المعزز، فإنك تستخدم أدوات متجذرة في الاستدلال الإحصائي. وتمكننا الإحصائيات من تحديد عدم اليقين والتعميم من العينات واستخلاص استنتاجات حول مجموعات سكانية أوسع - وكلها ضرورية لبناء أنظمة ذكاء اصطناعي جديرة بالثقة.

الإحصاء الوصفي: فهم الأساسيات

قبل نماذج التدريب، نقوم بإجراء تحليل البيانات الاستكشافية (EDA) - وهي عملية تعتمد على الإحصائيات الوصفية لتلخيص الخصائص الرئيسية للبيانات. حيث تخبرنا هذه الملخصات عن النزعة المركزية والتباين لكل سمة، مما يساعدنا على تحديد القيم الخارجية ومشكلات جودة البيانات واحتياجات المعالجة المسبقة. ويُعد فهم هذه الخصائص شرطًا أساسيًا لبناء نماذج فعالة واختيار خوارزميات التعلم الآلي المناسبة.

المقاييس الرئيسية:

    • المتوسط (Mean):

    المتوسط الحسابي للقيم. وهو شائع في قياس المركزية وفي دوال الخسارة مثل خطأ المتوسط التربيعي (MSE).

    مثال: إذا كانت قيم شراء العملاء آخذة في الازدياد، فإن المتوسط يكتشف التحولات في السلوك.

    • الوسيط (Median):

    القيمة الوسطى عند فرز البيانات. أكثر قوة في مواجهة القيم المتطرفة من المتوسط.

    مثال: عند التعامل مع بيانات الدخل، فإن الوسيط يمثل الحالة 'المتوسطة' بشكل أفضل في حال وجود توزيع غير متماثل للثروة.

    • الوضع:

    القيمة الأكثر تكرارًا. مفيد للسمات الفئوية أو التصويت بالأغلبية (كما هو الحال في بعض أساليب المجموعة).

    مثال: العثور على المتصفح الأكثر شيوعًا الذي يستخدمه زوار الموقع.

    • الانحراف المعياري (SD):

    يقيس مدى انتشار القيم من المتوسط. يشير الانحراف المعياري المنخفض إلى أن نقاط البيانات مجمعة بالقرب من المتوسط، بينما يشير الانحراف المعياري المرتفع إلى تباين أكبر.

    مثال: عند التحقق من صحة النموذج، قد تحتاج السمة ذات التباين العالي إلى تسوية لتجنب التغلب على الآخرين في الخوارزميات القائمة على المسافة مثل خوارزميات الجيران الأقرب.

    • المدى الربعي (IQR):

    النطاق بين النسب المئوية 75 و25 (Q3 - Q1). فهو يلتقط 50% من البيانات الوسطى ويعد مفيدًا للكشف عن القيمة الخارجية.

    مثال: في مهمة تقسيم العملاء، قد يشير معدل الذكاء المرتفع في الإنفاق إلى سلوك غير متناسق عبر المجموعات الفرعية.

    • الانحراف:

    يشير إلى عدم تناسق التوزيع. يشير الانحراف الموجب إلى ذيل أيمن أطول، بينما يشير الانحراف السالب إلى ذيل أيسر أطول. قد تنتهك السمات المنحرفة افتراضات النماذج الخطية أو تضخم المقاييس المستندة إلى المتوسط.

    مثال: قد تتطلب التوزيعات ذات الانحراف الأيمن (مثل الدخل) تحويلًا قبل تطبيق الانحدار.

    • التفرطح:

    يصف مدى "ثقل ذيول" التوزيع، أي مدى احتمالية وجود قيم متطرفة. يعني التفرطح العالي وجود قيم متطرفة أكثر تكرارًا، بينما يشير التفرطح المنخفض إلى توزيع أكثر تسطحًا.

    مثال: عند الكشف عن الغش، قد يشير التفرطح العالي في مبالغ المعاملات إلى أنماط إنفاق غير طبيعية.

    توجه هذه المقاييس أيضًا قرارات المعالجة المسبقة مثل التسوية أو التوحيد أو التضمين وتؤثر على كيفية هندسة السمات (الخصائص) الجديدة.

    الإحصاء الوصفي في التعلم الآلي

    أثناء تقييم الفرص الوظيفية، تساعدنا الإحصائيات الوصفية على:

    • تقييم توزيعات البيانات: هل المتغيرات غاوسية؟ منحرفة؟ متعددة الوسائط؟
    • تحديد القيم المتطرفة والأخطاء: قد يشير عدم التطابق بين المتوسط والوسيط إلى قيم غير عادية.
    • اكتشف مشكلات جودة البيانات: على سبيل المثال، اكتشاف الأعمار السلبية أو الفئات المستحيلة.
    • المساعدة على اختيار النموذج: يشير متغير الهدف المستمر إلى الانحدار؛ بينما يشير المتغير الفئوي إلى التصنيف. وقد تؤثر العلاقات بين السمات (مثل الارتباط) أيضًا على إذا ما كان يجب استخدام الأساليب الخطية أو غير المعلمية أو القائمة على النواة.

    يساعدنا فهم البيانات باستخدام الإحصائيات أيضًا على إعداد النماذج للتعامل مع مجموعات البيانات الكبيرة وتقييم مقاييس النموذج والتخفيف من المخاطر مثل الإفراط في التجهيز. فعلى سبيل المثال، قد تكشف الملخصات الوصفية عن فئات غير متوازنة أو مقاييس ميزات تتطلب تسوية؛ وكلتاهما تؤثران على أداء النموذج ونزاهته.

    Mixture of Experts | 28 أغسطس، الحلقة 70

    فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

    انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

    الاحتمالات: لغة عدم اليقين

    إن النمذجة باستخدام التعلم الآلي موجودة؛ بسبب عدم اليقين. فإذا كان بوسعنا ربط المدخلات بالمخرجات بشكل مثالي، فلن تكون هناك حاجة إلى النماذج. لكن بيانات العالم الواقعي فوضوية وغير مكتملة وضجيجية - لذا نقوم بنمذجة الاحتمالات بدلًا من اليقين. والتعرف على الاحتمالات يضع أساسيات كل ما يتعلق بالتعلم الآلي والذكاء الاصطناعي. تسمح لنا النظريات في الاحتمالات بفهم البيانات التي استخدمناها لنمذجتها بطريقة جميلة وأنيقة. ويمثل دورًا حساسًا في نمذجة عدم اليقين في تنبؤات نماذج التعلم الآلي. ويساعدنا على تحديد كمية الاحتمالية والرجحان واليقين في نموذج إحصائي، لكي نتمكن من قياس مخرجات النماذج التي ننشئها بثقة. ويساعد التعمق في عالم الاحتمالات وتعلم الأساسيات على ضمان فهمك لأساس جميع نماذج التعلم الإحصائي وكيف تظهر تنبؤاتها. وسوف تتعلم كيف يمكننا الاستدلال وإنتاج نتائج احتمالية.

    ولكي تتمكن من تعلم التوزيعات الشائعة ونمذجة بياناتك بثقة، دعنا ننتقل الآن إلى الأساسيات ونوضح بعض المصطلحات.

    المتغير العشوائي: تمثيل عددي لناتج ظاهرة عشوائية. فهو متغير تكون قيمه الممكنة عبارة عن نتائج عددية لعملية عشوائية.

    المتغير العشوائي المتقطع: متغير عشوائي يمكن أن يأخذ عددًا محدودًا أو غير محدود من القيم المختلفة. على سبيل المثال، نتيجة قلب العملة (الرؤوس = 1، Tails = 0)، أو عدد رسائل البريد الإلكتروني غير المرغوب فيها المستلمة في ساعة.

    المتغير العشوائي المتواصل: متغير عشوائي يمكن أن يأخذ أي قيمة ضمن نطاق معين. على سبيل المثال، ارتفاع الشخص أو درجة الحرارة في الغرفة أو كمية هطول الأمطار.

    الحدث: مجموعة من ناتج واحد أو أكثر من عملية عشوائية. على سبيل المثال، الحصول على رقم زوجي على حجر النرد (النتائج: 2، 4، 6) أو تخلي العميل عن الخدمة.

    النتيجة: نتيجة واحدة محتملة لتجربة عشوائية. على سبيل المثال، عند رمي العملة المعدنية سيظهر إما "وجه" أو "ظهر".

    الاحتمالية P(A) مقياس رقمي لاحتمالية وقوع حدث: A سوف يحدث، يتراوح من 0 (مستحيل) إلى 1 (مؤكد).

    الاحتمال الشرطي P(A|B): احتمال وقوع الحدث A يحدث، بالنظر إلى أن الحدث A قد حدث بالفعل. هذه الخطوة حاسمة في التعلم الآلي، حيث نريد غالبًا التنبؤ بنتيجة بالنظر إلى سمات محددة.

    الاحتمال هو مقياس لمدى احتمال وقوع حدث ما، من 0 (مستحيل) إلى 1 (مؤكد).

    في التعلم الآلي، غالبًا ما يأخذ هذا شكل الاحتمال الشرطي

    مثال: قد يقول نموذج الانحدار اللوجستي

    > "بافتراض أن العمر = 45، والدخل = 60 ألف دولار أمريكي، والسجل السابق،

    > فإن احتمال تخلي العميل عن الخدمة هو 0.82".

    هذا المثال لا يعني أن العميل سوف يتخلى عن الخدمة بالضرورة، بل هو اعتقاد مبني على الأنماط الإحصائية الموجودة في بيانات التدريب.

    في العصر الحديث للذكاء الاصطناعي التوليدي، تمثل النماذج الاحتمالية مثل الانحدار دورًا كبيرًا في تحديد النتائج ومخرجات النموذج. وغالبًا ما يكون هذا الدور في شكل دالة تنشيط في طبقات الشبكات العصبية.

    التوزيعات: نمذجة سلوك البيانات

    التوزيع الاحتمالي هو دالة رياضية تصف القيم والاحتمالات الممكنة التي يمكن أن يأخذها متغير عشوائي ضمن نطاق معين. ويُعد فهم التوزيعات أمرًا بالغ الأهمية في التعلم الآلي؛ لأن البيانات نادرًا ما توجد كنقاط مفردة ومعزولة، بل تمتلك بنية و"شكلًا". فيما يلي بعض المصطلحات التي نحتاج إلى تحديدها:

    • التوزيع المتقطع: ينطبق على المتغيرات التي تأخذ قيمًا مميزة وقابلة للعد (على سبيل المثال، رميات العملة، أو عدد الكلمات).
    • التوزيع المتصل: ينطبق على المتغيرات التي يمكن أن تأخذ أي قيمة ضمن مدى معين (على سبيل المثال، الطول، الوزن، الوقت).

    المفاهيم الأساسية

    • دالة الكتلة الاحتمالية (PMF): تنطبق دالة الكتلة الاحتمالية على المتغيرات العشوائية المتقطعة؛ وهي المتغيرات التي تأخذ قيمًا مميزة وقابلة للعد، مثل 0 أو 1، أو وجه العملة أو ظهرها، أو عدد العملاء الواصلين إلى متجر من المتاجر. تخبرك دالة الكتلة الاحتمالية (PMF) بالاحتمال الدقيق لكل نتيجة محتملة. على سبيل المثال، إذا رميت نردًا سداسي الأوجه وسليمًا، فإن دالة الكتلة الاحتمالية تُسند احتمال 1/6 لكل نتيجة من النواتج. 1,2,3,4,5,6. على عكس دالة كثافة الاحتمال (PDF) (التي تنشر كثافة الاحتمال عبر مدى معين)، فإن دالة الكتلة الاحتمالية (PMF) تُركز الاحتمال على قيم دقيقة ومحددة.
    • دالة كثافة الاحتمال (PDF): تساعدنا في التفكير في النسب المئوية والكميات وعتبات الاحتمالات - المفاهيم التي غالبًا ما تُستخدَم في نماذج العتبة وتدقيق النزاهة وقابلية التفسير.
    • دالة التوزيع التراكمي (CDF): تعطي CDF الاحتمال التراكمي بأن تكون القيمة أقل من أو تساوي عتبة معينة. فهي تنمو من 0 إلى 1 كلما تحركت على طول المحور السيني، وتعتبر مفيدة بشكل خاص عند الإجابة عن أسئلة مثل: "ما نسبة العملاء الذين ينفقون أقل من 50 دولارًا أمريكيًا؟
    • دالة الكتلة التراكمية (CMF): دالة الكتلة التراكمية هي النظير المنفصل لدالة الكتلة التراكمية. فهي تعطي الاحتمال التراكمي بأن يأخذ المتغير المنفصل قيمة أقل من أو تساوي نقطة معينة.

    يعتبر وضع الافتراضات الصحيحة حول توزيع بياناتك أمرًا حساسًا؛ حيث تعتمد العديد من خوارزميات التعلم الآلي على هذه الافتراضات لاختيار النموذج وتفسيره. ويمكن للافتراضات غير الصحيحة أن تؤدي إلى تقديرات متحيزة ودوال خسارة غير متوائمة وفي نهاية المطاف، تحصل على تعميم ضعيف أو استنتاجات غير صحيحة في التطبيقات الواقعية.

    ترتكز التوزيعات الاحتمالية على ما يلي:

    • نمذجة الخطأ: افتراضات حول المتبقيات (الأخطاء) في الانحدار (غالبًا هي توزيع غاوسي).
    • دوال الخسارة: دالة متوسط الخطأ التربيعي (MSE) تتوافق مع الافتراضات الغاوسية؛ ودالة الإنتروبيا المتقاطعة تتوافق مع افتراضات برنولي أو اللوجستية.
    • تصميم النموذج: غالبًا ما تتم نمذجة أهداف التصنيف عبر توزيع برنولي؛ وتقوم المتغيرات الكامنة في النماذج التوليدية العميقة باستخدام التوزيعات القبلية الغاوسية.
    • الذكاء الاصطناعي التوليدي: يعد أخذ العينات من التوزيعات المتعلمة عالية الأبعاد أمرًا جوهريًا لنماذج مثل الشبكات التوليدية التنافسية (GAN) والمُشفِّرات التلقائية المتغيرة (VAE).

    مثال على التوزيع المتقطع: تجارب برنولي

    يُنمذِج توزيع برنولي احتمال النجاح أو الفشل في محاولة واحدة لحدث عشوائي متقطع. أي أن له نتيجتين اثنتين فقط: 1 (نجاح) أو 0 (فشل). فهو أبسط أنواع التوزيعات المستخدمة في الإحصاء، ومع ذلك فهو يشكل الأساس للعديد من مسائل التصنيف في التعلم الآلي. على سبيل المثال، إذا كنت ستقلب عملة معدنية 10 مرات، وحصلت على 7 مرات وجه (نجاح) و3 مرات ظهر (فشل)، فيمكن رسم دالة كتلة الاحتمال (PMF) على النحو التالي:

    توزيع العملات المعدنية - مخطط شريطي

    قلب العملة المعدنية هو تجربة برنولي الكلاسيكية. دعنا نطبق دالة كتلة الاحتمال على مثال رمي العملة المعدنية

    - لنفترض أن X هو متغير عشوائي يمثل ناتج رمية واحدة.

    - إذا كان ظهور الوجه يعتبر نجاحًا، فإننا نحدد X=1 للوجه و X=0 للظهر

    - إذا كانت العملة سليمة، فإن احتمال ظهور الوجه هو p=0.5

    دالة الكتلة الاحتمالية (PMF) لتوزيع بيرنولي هي:

     P(X=x)=px(1-p)1-x,forx{0,1}

    توزيع برنولي - مخطط المصاصة

    حيث:

    • p هو احتمال النجاح (X = 1)
    • الاحتمال (p - رقم واحد) هو احتمال الفشل (X = 0)
    • x هي النتيجة المرصودة (1 أو 0)

     

    تطبيق على التعلم الآلي: التوزيع المنفصل

    يُعد فهم دالة الكتلة الاحتمالية لتوزيع برنولي ضروريًا؛ لأنها تشكل الركيزة الأساسية الاحتمالية للعديد من نماذج التصنيف وعلى وجه الخصوص، لا يقوم الانحدار اللوجستي بإخراج تسمية فئة فقط، بل يقدِّر احتمالية أن ينتمي إدخال معين إلى الفئة 1. ويتم تفسير هذا الاحتمال المتوقع على أنه المعلمة p في توزيع برنولي:

    تضمن الدالة اللوجستية (سيجمويد) المستخدمة في الانحدار اللوجستي أن القيم المتوقعة تقع ضمن النطاق [0،1]، مما يجعلها احتمالات برنولي صالحة. ويتم تدريب النموذج على تعظيم احتمالية ملاحظة النتائج الثنائية الحقيقية في ظل افتراض أن كل قيمة مستهدفة مستمدة من توزيع برنولي مع احتمال 𝑝 متوقعة من السمات 𝑋. وفي هذه الحالة، نظرًا لأننا نريد تقليل خسارة التدريب إلى الحد الأدنى، فإننا نتبع نهج تقدير الاحتمالية القصوى (MLE) لتعظيم احتمالية نتيجة ما، نظرًا للبيانات. وعادةً، بالنسبة للتوزيع المنفصل مثل برنولي، نقوم بتحويل الاحتمال إلى احتمالية للتعامل معه بسهولة أكبر. والرجحان، مثله مثل الاحتمالات النسبية، غير متناسب (لا يتزايد خطيًا)، لذلك نطبق عادةًً تحويلًا لوغاريتميًا - يُعرف باسم لوغاريتم الرجحان، وتُعرف دالة الخسارة الناتجة باسم خسارة اللوغاريتم. إذا كان هذا القسم يبدو مربكًا بعض الشيء، يمكنك زيارة شرح الانحدار اللوجستي المذكور سابقًا للحصول على استنتاج خطوة بخطوة لدالة الاحتمال اللوغاريتمي باستخدام طريقة تقدير الاحتمال الأقصى (MLE). ويوفر هذا الاتصال الأساس الإحصائي لتفسير المخرجات على أنها تقديرات احتمالية. تشمل التطبيقات الأخرى ما يلي:

    • المصنِّف الثنائي (شجرة القرار، الغابات العشوائية، آلات المتجهات الداعمة ذات النتائج الثنائية) يعامل التصنيف ضمنًا على أنه يتنبأ بنتائج برنولي؛ خاصةً عندما يتم تطبيق معايرة الاحتمالات بعد التدريب.
    • مقاييس التقييم: يتم اشتقاق الدقة والاسترجاع ودرجة F1 بشكل أساسي من افتراض أن كل تنبؤ هو حدث ثنائي (تجربة برنولي).

    مثال على التوزيع المتواصل: التوزيع الغاوسي (الطبيعي)

    يصف التوزيع الطبيعي متغيرًا عشوائيًا متصلًا تميل قيمه إلى المجموعة حول متوسط مركزي، مع تباين متماثل في كلا الاتجاهين. فهو موجود في كل مكان في الإحصاء لأن العديد من الظواهر الطبيعية (الطول، درجات الاختبار، أخطاء القياس) تتبع هذا النمط، خاصة عند تجميعها عبر العينات.

     

    التوزيع الطبيعي - منحنى الجرس

    لنفترض أنك تسجل طول عدد 1000 شخص بالغ. رسم هذه البيانات بيانيًا يعطينا منحنًى على شكل جرس: يكون معظم الأشخاص قريبين من المتوسط، مع وجود عدد أقل عند النهايات. ويتم التقاط هذا الشكل بواسطة دالة كثافة الاحتمال (PDF) للتوزيع الطبيعي:

     f(xμ,σ2)=12πσ2exp(-(x-μ)22σ2)

    حيث:

    • x هو متغير مستمر (على سبيل المثال، الطول)
    • μ هو المتوسط (مركز التوزيع)
    •  σ2  التباين (يتحكم في الانتشار)
    • المقام  2πσ2  يضمن أن المساحة الموجودة أسفل المنحنى تساوي 1
    • يعاقب الحد الأسي القيم البعيدة عن المتوسط، مما يجعلها أقل احتمالية

    تطبيقات التعلم الآلي: التوزيع المتواصل

    • الانحدار الخطي: يفترض أن المتبقيات (الأخطاء) موزَّعة بشكل طبيعي، وهو ما يبرر استخدام متوسط الخطأ التربيعي (MSE) كدالة خسارة. حيث إن هذا الافتراض يمكِّن النماذج من إجراء تفسيرات احتمالية ويسهل الاستدلال الإحصائي (على سبيل المثال، فترات الثقة، واختبار الفرضيات على المعاملات).
    • النماذج التوليدية: غالبًا ما تفترض المشفِّرات الذاتية المتغيرة (VAE) والشبكات التوليدية التنافسية (GAN) والنماذج التوليدية الأخرى أن المتغيرات الكامنة تتبع توزيعًا طبيعيًّا قياسيًّا. يتم إنشاء بيانات جديدة عن طريق أخذ العينات من هذا الفضاء وتحويله من خلال الشبكات المكتسبة.
    • التنظيم: تعاقب تقنيات مثل تنظيم L2 (المعروف أيضًا باسم انحدار ريدج) أوزان النموذج الكبيرة عن طريق إضافة مصطلح يتناسب مع مربع الأوزان إلى دالة الخسارة. يتوافق مصطلح الجزاء هذا مع افتراض أولوية غاوسية على معلمات النموذج؛ ومن الناحية البايزية، يبدو الأمر كما لو كنا نعتقد أن الأوزان مستمدة من توزيع طبيعي مركزه الصفر. ويحول هذا المبدأ التنظيم إلى مشكلة تحسين متجذرة في الاحتمالات، مما يعزز نماذج أبسط ويقلل من الإفراط في التجهيز.

    الخاتمة

    في صميم كل نظام تعلّم آلي يكمن العمود الفقري الإحصائي، فهو الهيكل الداعم غير المرئي الذي يدعم كل شيء بدءًا من تصميم النموذج إلى التفسير. وبدأنا باستكشاف ما هو الإحصاء، وعلمنا أنه ليس مجرد فرع من فروع الرياضيات، بل لغة لفهم عدم اليقين واستخراج المعنى من البيانات. حيث توفر الإحصائيات الوصفية العدسة الأولى التي ندرس من خلالها تعقيد العالم من حولنا ونلخص، مما يوفر الوضوح قبل أن تبدأ النمذجة.

    ثم بعد ذلك، تعمقنا في الاحتمالات، وهي مجموعة الأدوات الرسمية للتفكير في ظل عدم اليقين. في التعلُّم الآلي، تساعدنا الاحتمالات على تحديد مدى احتمالية حدوث نتيجة ما، مما يمكّن النماذج من التعبير عن الثقة بدلًا من مجرد التنبؤات الصعبة. وسواء أكان الأمر يتعلق باحتمالية تخلي العميل عن الخدمة أم ترجيح صنف (تسمية) في التصنيف، فإن نظرية الاحتمالات تحوّل البيانات غير المنسَّقة إلى رؤى قابلة للتفسير.

    ثم أخيرًا، استكشفنا التوزيعات، والتي تحدد كيفية تصرف البيانات عبر سيناريوهات مختلفة. وعلمنا أن فهم هذه التوزيعات أمر بالغ الأهمية؛ بدءًا من توزيع برنولي المنفصل الذي يمثل النتائج الثنائية، إلى التوزيع الغاوسي المتواصل الذي يشكل افتراضاتنا في نماذج الانحدار والنماذج التوليدية. فهي تدعم كلًّا من البيانات التي نلاحظها والخوارزميات التي نبنيها، وتوجيه اختيار النموذج، وتشكيل دوال الخسارة وتمكين الاستدلال الهادف.

    في خوارزميات التعلم الآلي الحديثة، من الانحدار اللوجستي والبايز الساذج إلى التعلم العميق وطرق النواة، فإن هذه المبادئ الإحصائية ليست إضافات اختيارية بل هي آليات التعلم الآلي ذاتها. تساعدنا على التفكير في حالة عدم اليقين وتحسين الأداء وتعميم من الملاحظات المحدودة إلى اتخاذ القرارات في العالم الحقيقي. من خلال إتقان هذه الأسس، فأنت لا تتعلم فقط استخدام التعلم الآلي؛ بل تتعلم فهمه وبناءه والاستدلال منه.

    حتى في عصر الذكاء الاصطناعي التوليدي ونماذج التعلُّم العميق واسعة النطاق، تظل الإحصاءات أكثر أهمية من أي وقت مضى. وراء كل طبقة محول وخطوة انتشار يكمن أساس مبني على افتراضات الاحتمالات والتقدير والتوزيع. إن فهم مفاهيم مثل الموازنة بين التحيز والتباين وعدم اليقين ليس مجرد أمر أكاديمي، بل هو ضروري لتفسير نماذج الصندوق الأسود، وتشخيص أوضاع الفشل، وبناء الذكاء الاصطناعي المسؤول والقابل للتفسير. سواء أكنت تقوم بضبط نموذج الأساس، أم تطبق تقنيات بايزية لتقدير عدم اليقين أم تقييم المخرجات التوليدية، فإن المنطق الإحصائي يزودك بالأدوات اللازمة للتغلب على التعقيد بوضوح. مع تنامي قوة الذكاء الاصطناعي التوليدي، فإن ترسيخ ممارستك في الأساسيات الإحصائية يضمن أن تظل نماذجك ليست فقط على أحدث طراز، بل أيضًا مبنية على المبادئ وجديرة بالثقة.

    حلول ذات صلة
    IBM watsonx.ai

    تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

    اكتشف watsonx.ai
    حلول الذكاء الاصطناعي

    استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

    استكشف حلول الذكاء الاصطناعي
    الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

    أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

    استكشف خدمات الذكاء الاصطناعي
    اتخِذ الخطوة التالية

    احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

    استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا