في العديد من البيئات الواقعية، لا تكفي دقة وقدرة نموذج الذكاء الاصطناعي في حد ذاتهما لجعل النموذج مفيدًا: بل يجب أيضًا أن يتناسب مع الميزانية المتاحة من الوقت والذاكرة والمال والموارد الحسابية.
غالبًا ما تكون النماذج الأعلى أداءً لمهمة معينة كبيرة جدًا أو بطيئة أو مكلِّفة بالنسبة لمعظم حالات الاستخدام العملية - لكنها غالبًا ما تمتلك خصائص فريدة تظهر نتيجة حجمها وقدرتها على التدريب المسبق على كمية هائلة من بيانات التدريب. تظهر هذه القدرات الناشئة بشكل خاص في نماذج اللغة الانحدارية التلقائية، مثل GPT أو Llama، والتي تُظهر قدرات تتجاوز هدف التدريب الصريح المتمثل في التنبؤ ببساطة بالكلمة التالية في التسلسل. على النقيض من ذلك، تكون النماذج الصغيرة أسرع وأقل استهلاكًا للموارد الحسابية، لكنها تفتقر إلى الدقة والصرامة وسعة المعرفة التي يتمتع بها النموذج الكبير ذو عدد المَعلمات الأكبر بكثير.
في الورقة البحثية الأساسية لعام 2015 بعنوان "استخلاص المعرفة في الشبكة العصبية"، اقترح Hinton وآخرون التحايل على هذه القيود من خلال تقسيم التدريب إلى مرحلتين متميزتين بأغراض مختلفة. قدم المؤلفون تشبيهًا: بينما تمتلك العديد من الحشرات شكلًا يرقانيًا مُحسَّنًا لاستخلاص الطاقة والمغذيات من البيئة وشكلًا بالغًا مختلفًا تمامًا مُحسَّنًا للتنقل والتكاثر، يستخدم التعلم العميق التقليدي نفس النماذج لكلٍّ من مرحلتي التدريب والنشر، على الرغم من متطلباتهما المختلفة.
باستلهام من الطبيعة ومن عمل Caruana وآخرين، اقترح Hinton وآخرون أن تدريب نماذج كبيرة ومعقدة يستحق العناء إذا كان ذلك هو أفضل طريقة لاستخلاص البنية من البيانات—ولكنهم قدموا نوعًا مختلفًا من التدريب، وهو الاستخلاص، لنقل تلك المعرفة إلى نموذج صغير أكثر ملاءمة للنشر في الوقت الفعلي.2
لا تهدف تقنيات استخلاص المعرفة إلى تكرار مخرجات نماذج المعلمين فحسب، بل تهدف أيضًا إلى محاكاة "عمليات التفكير" الخاصة بهم. في عصر النماذج اللغوية الكبيرة، مكّن استخلاص المعرفة من نقل الصفات المجردة مثل الأسلوب وقدرات التفكير والمواءمة مع التفضيلات والقيم البشرية.3
علاوة على ذلك، فإن النماذج الأصغر حجمًا أكثر قابلية للتفسير بشكل أساسي: في نموذج يحتوي على مئات المليارات من المعلمات، من الصعب تفسير مساهمات أجزاء مختلفة من الشبكة العصبية. يمكن أن يساعد نقل التمثيلات التي تعلمتها نماذج "الصندوق الأسود" الكبيرة إلى نماذج أبسط في توضيح الرؤى التحويلية في مجالات مثل التشخيص الطبي والاكتشاف الجزيئي.4