يبدأ الذكاء الاصطناعي التوليدي بنموذج أساس، وهو نموذج تعلم عميق يعمل كأساس لأنواع مختلفة ومتعددة من تطبيقات الذكاء الاصطناعي التوليدي. ونماذج الأساس الأكثر شيوعًا اليوم هي النماذج اللغوية الكبيرة (LLM)، التي تم إنشاؤها لتطبيقات إنشاء النصوص، وهناك أيضًا نماذج أساس لتوليد الصور وإنشاء الفيديوهات والصوت والموسيقى، إلى جانب نماذج أساس متعددة الوسائط تدعم عدة أنواع من توليد المحتوى.
يدرِّب الممارسون خوارزمية التعلّم العميق على كميات هائلة من البيانات غير المنسقة وغير المنظمة وغير المُصنَّفة لإنشاء نموذج أساس؛ يصل حجمها مثلًا إلى تيرابايت من البيانات المستمدة من الإنترنت أو من بعض مصادر البيانات الهائلة الأخرى. وفي أثناء التدريب، تنفذ الخوارزمية الملايين من تمارين ” تعبئة الفراغات“ وتقييمها، في محاولة للتنبؤ بالعنصر التالي في تسلسل ما، على سبيل المثال، الكلمة التالية في جملة، أو العنصر التالي في صورة، أو الأمر التالي في سطر من التعليمات البرمجية، وتعدِّل نفسها باستمرار لتقليل الفرق بين تنبؤاتها والبيانات الفعلية (أو النتيجة "الصحيحة").
نتيجة هذا التدريب هي الحصول على شبكة عصبية مكونة من المعلمات، وهي في الأساس تمثيلات مشفرة للكيانات والأنماط والعلاقات في البيانات، ويمكنها توليد محتوى بشكل مستقل استجابة للمدخلات أو المطالبات.
تتطلّب عملية التدريب هذه حوسبة مكثّفة وتستغرق وقتًا طويلاً ومكلفة: فهي تتطلب الآلاف من وحدات معالجة الرسومات (GPU) المجمّعة وأسابيع من المعالجة، وكل ذلك يكلّف ملايين الدولارات. تُمكّن مشاريع نماذج الأساس مفتوحة المصدر، مثل Llama-2 التابعة لشركة Meta، مطوري الذكاء الاصطناعي التوليدي من تجنب هذه الخطوة وتكاليفها الباهظة.