نماذج الانتشار هي نماذج توليدية تُستخدم في المقام الأول لتوليد الصور وغيرها من مهام رؤية الكمبيوتر. ويتم تدريب الشبكات العصبية المستندة إلى الانتشار من خلال التعلم العميق على "نشر" النماذج تدريجيًا مع تشويش عشوائي، ثم عكس عملية الانتشار هذه لتوليد صور عالية الجودة.
تُعد نماذج الانتشار من بين البنى الشبكية العصبية التي تتصدر الذكاء الاصطناعي التوليدي، وأبرزها النماذج الشائعة لتحويل النص إلى صورة بما في ذلك نموذج Stable Diffusion من شركة Stability AI، وDALL-E من شركة OpenAI (بدءًا من DALL-E-2)، وMidjourney وImagen من شركة Google. وتعمل هذه النماذج على تحسين أداء بنى التعلم الآلي التوليدية الأخرى المستخدمة في تركيب الصور واستقرارها، ومن أمثلتها برامج التشفير التلقائي المتغيرة (VAE) والشبكات التنافسية التوليدية (GAN) ونماذج الانحدار الذاتي مثل PixelCNN.
إن الحدس الكامن وراء نماذج الانتشار مستوحى من الفيزياء، حيث يتم التعامل مع وحدات البكسل مثل جزيئات قطرة الحبر التي تنتشر في كوب من الماء بمرور الوقت. ومثلما ستؤدي الحركة العشوائية لجزيئات الحبر في النهاية إلى انتشارها بشكل متساوٍ في الزجاجة، فإن الإدخال العشوائي للضوضاء في الصورة سيؤدي في النهاية إلى ما يشبه التشويش التلفزيوني. ومن خلال نمذجة عملية الانتشار هذه ثم تعلم عكسها بطريقة ما، يمكن لأحد نماذج الذكاء الاصطناعي توليد صور جديدة ببساطة عن طريق "إزالة الضوضاء" من عينات الضوضاء العشوائية.
وترتبط نماذج الانتشار بشكل بارز بإنشاء الصور ومهام معالجة الصور الأخرى مثل الطلاء والدقة الفائقة، لكن تطبيقها يمتد إلى مجالات أخرى بما في ذلك إنشاء الصوت وتصميم الأدوية وإنشاء الجزيئات. وللتبسيط، ستركز هذه المقالة على إنشاء الصور.
لشرح نماذج الانتشار وفهمها، من المهم أن نلاحظ أولاً أن العملية التوليدية التي تسمى الآن "الانتشار" اكتُشِفت بشكل مستقل في مناسبتين منفصلتين من خلال نهجين رياضيين مختلفين. وباختصار، هناك طرق متعددة يمكن أن "تعمل" بها نماذج الانتشار، وهي نماذج بسيطة من الناحية النظرية ولكنها معقدة رياضيًا.
وقد استعارت التطورات اللاحقة أفكارًا من كلا النهجين، ومزجت مزايا كل منهما لتنتج في النهاية نماذج الانتشار الحديثة التي تهيمن حاليًا على مجال إنشاء الصور. ومن ثَمَّ، فإن المراجعات الموجزة لتاريخ نماذج الانتشار ونظريتها تسهل فهم كيفية عمل نماذج الانتشار وسبب عملها.
قدِّم Sohl-Dickstein وآخرون نماذج الانتشار المستوحاة من الفيزياء لأول مرة في ورقتهم البحثية لعام 2015 بعنوان "Deep Unsupervised Learning using Nonequilibrium Thermodynamics" (التعلم العميق غير الخاضع للإشراف باستخدام الديناميكا الحرارية غير المتوازنة). طبّقت الخوارزمية الخاصة بهم ديناميكيات Langevin، وهي طريقة لنمذجة حركة الأنظمة الجزيئية، لتأكيد الفرضية الأساسية لنماذج الانتشار: تحويل البيانات إلى تشويش، حتى تتمكن بعد ذلك من تحويل الضوضاء إلى بيانات.
قامت خوارزمية Sohl-Dickstein، مثل معظم النماذج التوليدية، كبرامج التشفير التلقائي المتغير (VAE)، بنمذجة كثافة الاحتمالات: الاحتمال النسبي لوقوع المتغير المأخوذ بوصفه عينة عشوائية، x، ضمن نطاق قيم معين. وبشكل أساسي، تقوم نمذجة دالة كثافة الاحتمالات لمجموعة بيانات التدريب بالسماح لإحدى الخوارزميات بتوليد عينات من المرجح أن تتناسب بشكل كبير مع توزيع بيانات التدريب. عند إنشاء صورة جديدة، يفترض النموذج أن هناك فرصة كبيرة لتوزيع قيم البكسل على هذه الطريقة المحددة، وذلك على أساس التوزيع الاحتمالي الذي تعلمه من الأنماط في بيانات التدريب.
من الناحية المنطقية، تتطلّب دوال الكثافة الاحتمالية إمكانية أن يساوي مجموع الاحتمالات 1. بعبارة أخرى، يجب أن يساوي مجموع النسبة المئوية لجميع الاحتمالات %100 بالضبط. في الممارسة العملية، يتطلب ذلك غالبًا ثابت التطبيع: قيمة مدمجة في دالة الاحتمال تقلل الاحتمال الكلي إلى 1.
غالبًا ما يكون حساب ثابت التطبيع الذي يعمل مع جميع قيم المتغيرات الممكنة أمرًا مستعصيًا: يمكن حله تقنيًا، ولكنه يتطلب وقتًا لا نهائيًا لحسابه. وفي مثل هذه الحالات، يجب أن تكون النماذج القائمة على الاحتمالية إما مقتصرة على بنى نماذج محددة أو على تطوير حلول ذكية تقارب ثابت التطبيع بطريقة قابلة للتعديل.
طور Yang Song وStefano Ermon - بشكل مستقل عن عمل Sohl-Dickstein- نوعًا من النماذج القائمة على الطاقة يُسمى شبكة الدرجات الشرطية للضوضاء في ورقتهما البحثية لعام 2019 بعنوان "Generative Modeling by Estimating Gradients of the Data Distribution" (النمذجة التوليدية من خلال تقدير تدرجات توزيع البيانات)، حيث قامت الخوارزمية الخاصة بهم بنمذجة التدرج (𝑠) للوغاريتم () لدالة كثافة الاحتمالات . إن تدرج دالة كثافة لوغاريتم الاحتمال، المكتوبة باعتبارها ، يُسمى درجة Stein أو ببساطة "دالة النتيجة."
وعلى عكس دوال كثافة الاحتمالات التقليدية، لا تتطلب دوال النتيجة ثابت تطبيع لأنها لا تمثل كثافة الاحتمالات مباشرةً (وبالتالي لا يتعين عليها تطبيع الاحتمال الكلي إلى 1). وبدلًا من ذلك، تُدرَّب من خلال مطابقة الدرجات: معلمات نموذج التعلم، θ، التي تنتج نموذج pθ(x) الذي تتطابق درجاته - أي تتطابق تدرجاته - مع توزيع البيانات q(x) لبيانات التدريب.
ومن المزايا الأخرى لهذه النماذج التوليدية القائمة على الدرجات (SGM) أنها لا تفرض كثير من القيود على بنية النموذج pθ(x)، على عكس النماذج القائمة على الاحتمالية.
بينما كان Song وErmon يستكشفان طرقًا لتحسين أداء نموذجهما، توصلا بالصدفة إلى التقنيات نفسها التي استخدمها Sohl-Dickstein وآخرون. وأشارت ورقتهما البحثية إلى أن "تشويش البيانات بالضوضاء الغاوسية العشوائية يجعل توزيع البيانات أكثر قابلية للنمذجة التوليدية القائمة على الدرجات". كما أن نموذجهما - الذي أُنشئ باستخدام بنية U-Net التي طُوِّرت في الأصل لتجزئة الصور - طبّق بالمثل ديناميكيات لانجفين لتوليد العينات.
في عام 2020، اقترح Ho والآخرون استخدام نهج Sohl-Dickstein لتوليد صور عالية الجودة باستخدام الاستدلال التغييري في ورقتهم البحثية الأساسية "نماذج الانتشار الاحتمالية لتخفيف حدة الانتشار" (DDPMs). وقد أظهرت ورقتهم البحثية أن تعظيم الحد الأدنى للأدلة (ELBO)—وهي طريقة لإعادة كتابة مشاكل التحسين القائمة على الاحتمالات لتكون قابلة للتطبيق—لتدريب نماذج الانتشار تعادل بشكل أساسي مجموعة أهداف مطابقة الدرجات المستخدمة لتدريب النماذج التوليدية القائمة على الدرجات (SGM).
بتطبيق نهج Sohl-Dickstein باستخدام مطابقة الدرجات، أظهر Ho وآخرون أن نماذج احتمالية الانتشار يمكنها تحقيق جودة للصور تستطيع منافسة الشبكات التنافسية التوليدية (GAN) التي كانت في ذلك الوقت من أحدث النماذج. وقد استكشف Song وErmon وSohl-Dickstein وآخرون هذه الروابط بشكل أكبر - بما فيهم Diederik P. Kingma، وهو مبتكر برنامج التشفير التلقائي المتغير - في ورقتهم البحثية لعام 2021، " Score-Based Generative Modeling through Stochastic Differential Equations" (النمذجة التوليدية القائمة على النتيجة من خلال المعادلات التفاضلية العشوائية).
وفي وقت لاحق من ذلك العام، نشر Dhariwal وNichol بحث "Diffusion Models Beat GANs on Image Synthesis" (نماذج الانتشار تتفوق على الشبكات التنافسية التوليدية في تركيب الصور) -مستفيدين من الورقة البحثية المذكورة سابقًا، ما رسخ نماذج الانتشار بوصفها أحدث ما توصلت إليه التقنية.
ماتزال نماذج الانتشار الاحتمالية لإزالة الضوضاء (DDPM) -بدلاً من النماذج التوليدية القائمة على الدرجات (SGM)- هي النمط السائد عمومًا، وإن كانت هناك تحسينات أجرتها الأبحاث اللاحقة. على سييل المثال، كان البحث المؤثر لعام 2022 تحت عنوان "High-Resolution Image Synthesis with Latent Diffusion Models" (تركيب الصور عالية الدقة باستخدام نماذج الانتشار الكامنة) بمثابة تقدم مهم في الكفاءة وفعالية التكلفة.
في أثناء التدريب، تقوم نماذج الانتشار بنشر إحدى نقاط البيانات تدريجيًا مع ضوضاء عشوائية حتى تُدمَّر، ثم تتعلم عكس عملية الانتشار هذه وإعادة بناء توزيع البيانات الأصلي.
يمكن لنموذج الانتشار المُدرَّب بعد ذلك توليد نقاط بيانات جديدة تشبه بيانات التدريب ببساطة عن طريق إزالة الضوضاء عن عينة أولية عشوائية من الضوضاء النقية، ومن الناحية النظرية، يشبه هذا الأمر برنامج التشفير التلقائي لإزالة الضوضاء حيث تعمل الصور المشوشة كمتغيرات كامنة.
يعد تحويل الضوضاء العشوائية مباشرةً إلى صورة متماسكة أمرًا في غاية الصعوبة والتعقيد، ولكن يعد تحويل صورة مشوشة إلى صورة أقل تشويشًا بعض الشيء يُعد أمرًا سهلاً ومباشرًا نسبيًا، ولذا تصيغ نماذج الانتشار عملية الانتشار العكسي بصفتها عملية تحول تدريجي للتوزيع البسيط (مثل الضوضاء الغاوسية) إلى توزيع أكثر تعقيدًا (مثل الصورة المتماسكة).
يمكن تقسيم عملية التدريب ثم النشر إلى ثلاث مراحل رئيسية:
يتمثل الغرض من عملية الانتشار الأمامي في تحويل البيانات النقية من مجموعة بيانات التدريب -مثل صورة أو عينة صوتية- إلى ضوضاء نقية، وتستلزم الطريقة الأكثر شيوعًا حقن الضوضاء الغاوسية بشكل متكرر حتى يصبح توزيع البيانات بالكامل غاوسيًا.
من الناحية الرياضية، تصاغ هذه العملية المتدرجة بوصفها سلسلة Markov: وهي نوع من العمليات العشوائية — فهي عملية عشوائية تتبع قواعد احتمالية معينة — لنمذجة بيانات المتوالية الزمنية المتتابعة. وفي سلسلة Markov، تتأثر النتيجة في كل خطوة زمنية بالخطوة الزمنية التي تسبقها مباشرةً فقط، فببساطة، إنxt،التي تمثل حالة سلسلة Markov x في الخطوة الزمنية tتتأثر مباشرةً بـ xt-1 فقط. والدالة الرياضية التي تحدد الانتقال من أي xt إلى xt+1 تسمى نواة الانتقال.
في كل خطوة زمنية t،تُضاف كمية صغيرة من الضوضاء الغاوسية إلى xt-1 ثم يُعاد قياس الصورة للحفاظ على ثبات حجم الصورة على الرغم من الحقن المستمر للبكسلات العشوائية. وفي هذه الصيغة، تكون x0 هي نقطة البيانات الأصلية النقية، وx1هي نقطة البيانات بعد الخطوة الزمنية الأولى، مع إضافة كمية صغيرة من الضوضاء الغاوسية إليها، لتكون xT هي الحالة النهائية لعملية الانتشار الأمامي. وإذا كانت T كبيرة بدرجة كافية — أي بعد خطوات كافية — فستتلاقى xT مع الضوضاء الغاوسية الخالصة.
نعرّف كل خطوة إلى الأمام على أنها توقع حالة توزيع البيانات q(xt)، بمعلومية q(xt-1). في نموذج الانتشار الاحتمالي لإزالة الضوضاء (DDPM) القياسي، لا تنطوي هذه العملية الأمامية على أي عمليات للتعلم الآلي: ستكون النتائج النهائية لسلسلة Markov دائمًا توزيعًا غاوسيًا، ومن ثَمَّ لا تتطلب تحسينًا.
في نماذج الانتشار الاحتمالية لإزالة الضوضاء (DDPM)، لا تكون الضوضاء الغاوسية المضافة في كل خطوة في سلسلة Markov ثابتة ولا عشوائية، بل تُستمد الضوضاء من بنية الصورة الأصلية ويزداد معدل إضافتها بشكل مطرد مع كل خطوة متتالية.
يؤدي تنويع مقدار الضوضاء إلى تحسين استقرار تدريب النموذج وتحسين الأداء العام من خلال الموازنة بين أولويتين متنافستين، كما أشار Yang Song في منشور المدونة الذي كتبه حول النماذج التوليدية القائمة على الدرجات:
تذكَّر أن أي توزيع غاوسي (طبيعي) له متوسط، وتباين . يمثل معيار آخر - وهو β- عامل قياس للمتوسط والتباين للضوضاء الغاوسية في نواة الانتقال التي تحدد كل خطوة في سلسلة Markov الأمامية. ويؤدي تغيير قيمة β في خطوة معينة إلى تغيير الضوضاء الغاوسية المضافة في تلك الخطوة. β1 هو التباين في الخطوة الزمنية 1، أما βt فهو التباين في الخطوة الزمنية t، وهكذا، حتى βT.
تُحدد قيمة معدل β في كل خطوة، تباعًا، من خلال جدول التباين.
في كل خطوة t، تُزاح الصورة قليلاً من تكرارها في الخطوة السابقة (حسب المتوسط) وتُضاف الضوضاء إلى هذه النسخة المزاحة من الصورة (حسب التباين)، ويتم تحديد مقدار كل تحرك وإضافة ضجيج بقيمة βt: فمع زيادة βt وفقًا لجدول التباين، يزداد معدل الانتشار باطراد نتيجة لذلك. β هي دائمًا قيمة بين 0 و1: لذا، 0 < β1 < β2 < … < βT < 1.
يعد اختيار جدول التباين المحدد لـ β من الاعتبارات المهمة. وعادةً ما يُعيَّن يدويًا باعتباره مقياسًا فائقًا، فإما أن يُثبَّت على قيمة ثابتة أو يسير وفقًا لصيغة ما مع قيمتي بداية ونهاية محددتين مسبقًا لـ β. في الورقة البحثية التي تتناول نموذج احتمالية انتشار تقليل الضوضاء (DDPM)، استخدم "هو" وآخرون جدولاً خطيًا يحتوي على 1000 خطوة حيث β1 =10-4 وβT = 0.02. وجدت الأبحاث اللاحقة تحسينات في الأداء والكفاءة باستخدام أنواع أخرى من الجداول الزمنية، مثل جدول جيب التمام،[1] أو جعل الجدول الزمني نفسه معيارًا آخر مكتسبًا.[2]
تحدد قيمةβt كلاً من متوسط وتباين الضوضاء الغاوسية المضافة عند الخطوة t.
باختصار، في كل خطوة t، تُزاح الصورة قليلاً من تكرارها في الخطوة السابقة (حسب المتوسط) وتُضاف الضوضاء إلى هذه النسخة المزاحة من الصورة (حسب التباين). ويتم تحديد مقدار كل تحرك وإضافة ضجيج بقيمة βt: فمع زيادة βt وفقًا لجدول التباين، يزداد معدل الانتشار باطراد نتيجة لذلك.
نظرًا لأن إضافة الضوضاء الغاوسية تبدأ تدريجيًا ودائمًا ما تكون الضوضاء نفسها مشتقة من البنية الأساسية للصورة الأصلية في الخطوة السابقة، يتم الاحتفاظ بالصفات الأساسية للصورة الأصلية في العديد من الخطوات. ويمكّن هذا النموذج من تعلم أنماط توزيع البيانات الأصلية وبنيتها بشكل هادف في أثناء عملية الانتشار العكسي.
أحد أوجه القصور في هذه العملية التدريجية هو أنها مرهقة ومكلفة من الناحية الحسابية: فلكل صورة في مجموعة بيانات التدريب التي قد تحتوي على آلاف أو ملايين الصور، تتطلب العملية الأمامية عشرات أو مئات من الخطوات الفردية.
بدلاً من إضافة الضوضاء بشكل متكرر، يمكن إعادة كتابة معادلة العملية الأمامية بطريقة ذكية عن طريق إعادة كتابة تعبير بوصفه معيار جديد، . من خلال "خاصية لطيفة" لسلاسل Markov، يمكن مد هذا المعيار الجديد إلى معيار إضافي، ، مشتق من الضرب التكراري لـ في كل خطوة تصاعدية في السلسلة حتى تلك النقطة. يعكس هذا المعيار الإضافي بشكل أساسي نسبة الإشارة إلى الضوضاء (SNR) لـ xt: بعبارة أخرى، مقدار ما تبقى من الصورة الأصلية عند الخطوة الزمنية t.
فعلى سبيل المثال، عند x1، تمت إضافة كمية صغيرة من الضوضاء مرة واحدة. قيمة قريبة من 1، ما يعني أن الصورة ماتزال تحتفظ بمعظم "إشارتها" الأصلية . وفي خطوة لاحقة، مثل x50، تمت إضافة الضوضاء عدة مرات. لأن ، فإن قيمة دائمًا أقل من 1. حيث إن ، فإن قيمة في الخطوة 50 ستكون أقرب إلى 0، ما يعني أن جزءًا أكبر من الصورة الأصلية قد استُبدل بتشويش. وعند الخطوة الزمنية T، تكون xT ضوضاء بالكامل وقيمة تقترب من 0.
على الرغم من أن الاشتقاق المعقد للمعادلة خارج نطاق هذا المقال، فإن هناك أمرين مهمين لفهم أهمية خدعة إعادة تحديد المعايير هذه:
في نماذج الانتشار، تكون عملية الانتشار العكسي هي المكان الذي يحدث فيه التعلم الآلي الفعلي. عند تعلم تنفيذ الخطوات العكسية للتشويش في العملية الأمامية، يتعلم النموذج بشكل أساسي إزالة الضوضاء الغاوسية النقية وتحويلها إلى صورة نظيفة. وبمجرد تدريب الشبكة العصبية، يمكن استخدام هذه القدرة لتوليد صور جديدة من الضوضاء الغاوسية من خلال الانتشار العكسي التدريجي.
من الناحية النظرية، يمكن اعتبار مهمة النموذج بمثابة عكس بسيط للانتشار الأمامي. تُعرَّف العملية الأمامية، بدءًا من نقطة البيانات x0 المأخوذة كعينة من توزيع البيانات الحقيقي q(x) لمجموعة بيانات التدريب، على النحو التالي : أي، بالنظر إلى ، احسب . وعكسه، وهو الانتشار العكسي، يُعرَّف بأنه . ولكن من الناحية العملية، فإن الحوسبة تكون مستعصية.
بدلاً من ذلك، تُصاغ مهمة التدريب من خلال حلين:
تذكر مرة أخرى أن متوسط الضوضاء الغاوسية المضافة في الانتشار الأمامي ليس اعتباطيًا: على الرغم من أنه عشوائي بالفعل، فإن هيكل الضوضاء مشتق في البداية من هيكل الصورة الأصلية x0. ولذا من خلال تعلم التنبؤ بدقة بالضوضاء من خلال الانتشار العكسي، لا يتعلم النموذج إزالة التشويش من الصورة فحسب، بل يتعلم أيضًا هيكل x0.ضمنيًا.
ويرتبط هدف التدريب المحدد المستخدم في نماذج الانتشار ارتباطًا وثيقًا بمصطلح خسارة إعادة البناء المستخدم لتحسين التشفير التلقائي المتغير (VAEs). على غرار نماذج التشفير التلقائي المتغير، يتم تحسين نماذج الانتشار من خلال تعظيم الأدنى المتغير (VLB)، الذي يُطلق عليه أيضًا الحد الأدنى للأدلة (ELBO)، لمجموعة من مصطلحات الخسارة المتعددة.
يُستخدَم تعظيم الحد الأدنى المتغير (VLB) في الاستدلال التغييري لتقريب دالة النتيجة المستعصية : فبدلاً من تقليل الخطأ مباشرة، فإنه يعيد صياغة المعادلة على أنها تعظيم الحد الأدنى من التقدير (أو الحد الأدنى) لدقة تنبؤات النموذج.
تعكس كل من مصطلحات الخسارة المستخدمة تباعد Kullback-Leibler (أو "تباعد KL"، وعادةً ما يُرمز له بالاختصار DKL) بين نتائج خطوات الانتشار الأمامي لـ q والخطوات العكسية التي تنبأت بها pθ. ويُستخدم تباعد KL لقياس الفرق بين توزيعين احتماليين — على سبيل المثال، بين توزيع قيم البكسل في صورة ما وتوزيع قيم البكسل في صورة أخرى.
على وجه التحديد، تجمع دالة الخسارة لنماذج الانتشار بين ثلاثة شروط للخسارة: LT، وLt وL0.
على الرغم من أن الاشتقاق الرياضي المعقد للحد الأدنى المتغير (VLB) يتجاوز نطاق هذه المقالة، إلا أنه يمكن في للنهاية تبسيطه إلى خطأ المتوسط التربيعي (MSE) بين الضوضاء التي تنبأ بها النموذج، والضوضاء الحقيقية المضافة في العملية الأمامية، ، في كل خطوة زمنية. وهذا يفسر سبب كون مخرج النموذج عبارة عن تنبؤ بالضوضاء في كل خطوة، بدلاً من الصورة التي أُزيلت منها الضوضاء نفسها.
من خلال حساب تدرج دالة الخسارة في أثناء الترحيل العكسي ثم تعديل أوزان النموذج لتقليل دالة الخسارة من خلال أصل التدرج، ستصبح تنبؤات النموذج عبر مجموعة بيانات التدريب بالكامل أكثر دقة.
بمجرد أن يتعلم نموذج الانتشار تقدير الضوضاء التي سيتم طرحها بدقة في كل خطوة، يمكن استخدامه لتوليد صور جديدة عن طريق أخذ عينات من صورة عشوائية مشوشة xT من توزيع البيانات الذي تعلمه وإزالة التشويش منها لخطوات T. وكما هو الحال مع برامج التشفير التلقائي المتغيرة (VAE)، فإن إدخال عنصر طفيف من العشوائية في عملية أخذ العينات يمكّن نماذج الانتشار من إنتاج صور جديدة تشبه بيانات التدريب، بدلاً من إعادة إنتاج صور التدريب مباشرةً.
على عكس عملية تدريب الانتشار العكسي، لا يجب أن يتطابق مقدار الخطوات في عملية التوليد مع مقدار الخطوات المستخدمة في العملية الأمامية. وهذا ممكن لأن النموذج مدرب على التنبؤ بالضوضاء بالكامل في كل خطوة من خطوات الصورة، بدلاً من الكمية المحددة من الضوضاء التي ستُزال في تلك الخطوة.
ينطوي تقليل الخطوات على زيادة السرعة وتقليل المتطلبات الحسابية، مع احتمال حدوث مقايضة في التفاصيل الدقيقة، وعادةً ما تؤدي زيادة الخطوات إلى تحسين الدقة، وإن كان ذلك على حساب انخفاض السرعة وزيادة التكاليف الحسابية.
في حين يتمكن نموذج الانتشار القياسي من إنتاج تنويعات عالية الجودة من صور التدريب عشوائيًا، فإن معظم الاستخدامات العملية لنموذج توليد الصور تتطلب بعض التحكم في نواتج النموذج. نماذج الانتشار الموجّهة تسمح للمستخدم بتكييف الصور المولودة بتوجيهات محددة.
الشكل الأكثر شيوعًا لنموذج الانتشار الموجه هو نموذج الانتشار الذي يحول النص إلى صورة، والذي يتيح للمستخدمين تكييف المخرجات مع مطالبة نصية، مثل "زرافة ترتدي قبعة طويلة". يستلزم ذلك إقران نموذج الانتشار مع نموذج لغوي كبير(LLM) منفصل لتفسير المطالبة النصية، والذي قدمته شركة Google لأول مرة في ورقة بحثية بعنوان "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding" (نماذج الانتشار لتحويل النص إلى صورة مع فهم عميق للغة).
تهدف نماذج الانتشار القياسية إلى التنبؤ بدالة النتيجة غير المشروطة ▽xlogp(x): بعبارة أخرى، تدرج لوغاريتم احتمال أن الصورة x التي يولدها النموذج p تناسب بيانات التدريب x. تقدم نماذج الانتشار الموجّهة فئة بصرية محددة، y— على سبيل المثال، "زرافة" — وتتنبأ بدالة النتيجة الشرطية ∇xlogp(x|y): بعبارة أخرى، احتمال الصورة x، بالنظر إلى أنها يجب أن تناسب الفئة y.
يمكن تقسيم طرق الانتشار الموجَّه إلى قسمين:
على الرغم من قدرتها المتطورة على إنشاء صور عالية الجودة، فإن نماذج الانتشار التقليدية لها عيبان مهمان: فهي بطيئة ومكلفة حسابيًا. وقد قُلِّلت هذه العيوب إلى حد كبير بظهور نماذج الانتشار الكامنة، بدءًا من الانتشار المستقر.
ترتكز نماذج الانتشار الكامنة على فرضية بسيطة، وتعتمد مرة أخرى على برامج التشفير التلقائي المتغيرة (VAE). وبدلاً من تطبيق عملية الانتشار في مساحة بكسل عالية الأبعاد -أي على صور الإدخال مباشرةً - يمكن للنموذج أولاً إسقاط الإدخال على الفضاء الكامن ذي الأبعاد المنخفضة، ثم تطبيق عملية الانتشار هناك.
في الأساس، تستخدم نماذج الانتشار الكامنة أحد برامج التشفير التلقائي المتغيرة، مثل بنية المشفر التلقائي لتدريب جهاز التشفير على إخراج تمثيلات كامنة z للبيانات المدخلة x. ثم تُستخدم هذه التمثيلات الكامنة بعد ذلك باعتبارها مدخلات لنموذج الانتشار القياسي، وعادةً ما تستخدم بنية U-Net. ونظرًا لأن نموذج الانتشار يعمل مع بيانات ذات أبعاد منخفضة، يتم بعد ذلك إدخال مخرجاته في شبكة لفك التشفير من أجل الوصول إلى حجم الصورة النهائي المطلوب.
ملاحظة: تؤدي جميع الروابط إلى صفحات خارج ibm.com.
[1] "تحسين نماذج احتمالية انتشار إزالة الضوضاء"، arXiv، بتاريخ 18 فبراير 2021
[2] "نماذج الانتشار المتغيرة"، arXiv، آخر مراجعة في 14 إبريل 2023