التعبئة، والمعروفة أيضا باسم تجميع التشغيل التمهيدي، هي طريقة تعلم المجموعة التي تستخدم بشكل شائع لتقليل التباين داخل مجموعة بيانات صاخبة.
في التعبئة، يتم تحديد عينة عشوائية من البيانات في مجموعة تدريب مع الاستبدال—ما يعني أنه يمكن اختيار نقاط البيانات الفردية أكثر من مرة. بعد إنشاء كثير من عينات البيانات، يتم تدريب هذه النماذج الضعيفة بشكل مستقل. واعتمادًا على نوع المهمة—الانحدار أو التصنيف، على سبيل المثال—ينتج متوسط أو غالبية هذه التنبؤات تقديرًا أكثر دقة.
كملاحظة، تُعتبر خوارزمية الغابة العشوائية امتدادًا لطريقة التعبئة، باستخدام كلٍ من التعبئة وعشوائية السمات لإنشاء غابة غير مترابطة من أشجار القرارات.
يمنح التعلم التجميعي مصداقية لفكرة «الحِكمة الجماعية»، مما يشير إلى أن عملية اتخاذ القرار بتعاون مجموعة أكبر من الأشخاص عادةً ما يكون أفضل من القرار الذي يتخذه شخص واحد ولو كان خبيرًا. وبالمثل، يشير التعلم الجماعي إلى مجموعة من المتعلمين الأساسيين، أو النماذج، التي تعمل بشكل جماعي لتحقيق تنبؤ نهائي أفضل.
قد لا يؤدي النموذج الواحد، المعروف أيضًا باسم نموذج التعلم الأساسي أو نموذج التعلم الضعيف، أداءً جيدًا بشكل فردي بسبب التباين العالي أو التحيز العالي. ومع ذلك، عندما يتم تجميع المتعلمين الضعفاء، يمكن أن يشكلوا متعلمًا قويًا، حيث يقلل تجميعهم من التحيز أو التباين، مما يؤدي إلى أداء أفضل للنموذج.
غالبًا ما تستخدم أساليب التجميع شجرة القرار للتوضيح. يمكن أن تكون هذه الخوارزمية عرضة للتجهيز الزائد، مما يُظهر تباينًا كبيرًا وتحيزًا منخفضًا، عندما لا يتم تقليمها. وعلى العكس من ذلك، يمكن أن يفسح المجال أيضًا للتناسب، مع تباين منخفض وتحيز كبير، عندما يكون صغيرًا جدًا، مثل جذع القرار، وهو شجرة قرار بمستوى واحد.
تذكّر أنه عندما تفرط الخوارزمية في ملاءمة أو عدم ملاءمة مجموعة التدريب الخاصة بها، لا يمكنها التعميم بشكل جيد على مجموعات البيانات الجديدة، لذا تُستخدم طرق التجميع لمواجهة هذا السلوك للسماح بتعميم النموذج على مجموعات البيانات الجديدة. في حين أن أشجار القرار يمكن أن تُظهر تباينًا كبيرًا أو تحيزًا كبيرًا، تجدر الإشارة إلى أنها ليست تقنية النمذجة الوحيدة التي تستفيد من التعلم الجماعي للعثور على "النقطة المثالية" في مفاضلة التحيز والتباين.
يعد كل من التعبئة والتعزيز نوعين رئيسيين من أساليب التعلم الجماعي. كما هو موضح في هذه الدراسة ، فإن الفرق الرئيسي بين طرق التعلم هذه هو كيفية تدريبها.
في عملية التعبئة، يتم تدريب نماذج التعلم الضعيفة بالتوازي، بينما في عملية التعزيز، تتعلم النماذج بالتتابع. هذا يعني أنه يتم إنشاء سلسلة من النماذج، ومع كل تكرار لنموذج جديد، يتم زيادة أوزان البيانات التي تم تصنيفها بشكل خاطئ في النموذج السابق.
وإعادة توزيع الأوزان الترجيحية مما يساعد هذه الخوارزمية على تحديد المعلمات التي تحتاج إلى التركيز عليها لتحسين أدائها. تُعد خوارزمية AdaBoost، وتعني "خوارزمية التعزيز التكيّفي"، واحدة من أكثر خوارزميات التعزيز شيوعًا لأنها كانت الأولى من نوعها. تشمل الأنواع الأخرى من خوارزميات التعزيز XGBoost وGradientBoost وBrownBoost.
ومن الاختلافات الأخرى التي يختلف فيها التعبئة والتعزيز هي السيناريوهات التي يتم استخدامها فيها. على سبيل المثال، تُستخدم طرق التعبئة عادةً على المتعلمين الضعفاء الذين يظهرون تباينًا كبيرًا وتحيزًا منخفضًا، بينما تُستخدم طرق التعزيز عند ملاحظة تباين منخفض وتحيز كبير.
في عام 1996، قدّم Leo Breimanخوارزمية التعبئة، والتي تتكون من ثلاث خطوات أساسية:
هناك العديد من الفوائد والتحديات الرئيسية التي تمثلها طريقة التعبئة عند استخدامها لمشاكل التصنيف أو الانحدار. تشمل الميزات الرئيسية للتعبئة ما يلي:
تتضمن التحديات الرئيسية للتعبئة ما يلي:
تُستخدم تقنية التعبئة في العديد من الصناعات، مما يوفر رؤى للقيمة الواقعية ووجهات النظر المثيرة للاهتمام، كما هو الحال في مناظرات GRAMMY مع Watson. تتضمن حالات الاستخدام الرئيسية ما يلي: