جمع البيانات والمعالجة المسبقة: الخطوة الأولى هي جمع عدد كبير ومتنوع من الصور لكل مجموعة. يجب تصنيف البيانات ثم تطبيعها. يتضمن التطبيع وتقنيات تعزيز البيانات الأخرى تغيير حجم الصور إلى أبعاد ثابتة وتطبيع قيمة البكسل وغير ذلك.
اختيار النموذج: الخطوة التالية في سير العمل هي اختيار النموذج. من المرجح أن تكون البنية المختارة هي شبكة CNN. كما ذُكر سابقًا، تبدأ شبكة CNN باكتشاف ميزات أكثر تعقيدًا مع انتقال البيانات عبر طبقاتها.
تدريب النموذج والتحقق من الصحة: بعد الاختيار، يتم تقسيم الصور المصنّفة إلى مجموعات بيانات التدريب ومجموعات بيانات التحقق من الصحة ومجموعات بيانات الاختبار. تستخدم الشبكة هذه المجموعات لتحسين أوزانها وتعديلها بشكل متكرر، ما يقلل من الأخطاء بين التصنيفات المتوقعة والتصنيفات الفعلية. تساعد بيانات التحقق على منع فرط التخصيص، ويمكن أن تستمر عملية التدريب هذه حتى تحقِّق النتائج معيارًا محددًا مسبقًا.
خلال هذه المرحلة، قد يتم استخدام مجموعة بيانات صور موضَّحة بواسطة البشر مثل ImageNet. تُعَد ImageNet مجموعة ضخمة تضم أكثر من 14 مليون صورة. يتم تنظيم جميع هذه الصور وتصنيفها لتعليم أجهزة الكمبيوتر التعرُّف على الكائنات في الصور. يتم تمييز كل صورة في قاعدة البيانات بفئات محددة تُعرَف باسم "synsets"، ومعناها مجموعات المرادفات. تتضمن مجموعات المرادفات هذه أشياء مثل "كلب" أو "سيارة" أو "تفاحة"، وتستخدم إطار عمل يُعرَف باسم WordNet.
استخراج الميزات: في هذه الخطوة، على عكس تصنيف الصور القائم على القواعد، تتعلم نماذج التعلم العميق ميزاتها الخاصة من بيانات الصورة الأولية المستخرجة. يسمح هذا النهج للشبكة بإنشاء تصورات داخلية للتمييز بين المجموعات أو الفئات.
التقييم والنشر: بعد ذلك، يتم تقييم النموذج باستخدام بيانات الاختبار وإجراء التعديلات اللازمة إذا لزم الأمر. بعد ذلك، يتم نشر النموذج لإجراء التنبؤات على صور جديدة في بيئة حقيقية إذا تم تحقيق المقاييس المتوقعة.