تتطلب مهمة تصنيف بيانات الصور بدقة مجموعات بيانات تتكون من قيم البكسل التي تمثل أقنعة لأجسام مختلفة أو تسميات فئات مختلفة موجودة في الصورة. عادةً ما تكون هذه الأنواع من مجموعات البيانات أكبر وأكثر تعقيدًا من مجموعات بيانات التعلّم الآلي الأخرى بسبب تعقيد بيانات التدريب المتضمنة في تجزئة الصور.
تتوفر العديد من مجموعات بيانات تجزئة الصور مفتوحة المصدر، والتي تغطي مجموعة واسعة من الفئات الدلالية مع آلاف الأمثلة وشروح مفصلة لكل منها. على سبيل المثال، تخيل مشكلة تجزئة حيث يتم تعليم رؤية الكمبيوتر في سيارة ذاتية القيادة للتعرف على جميع الأجسام المختلفة التي ستحتاج للتوقف من أجلها، مثل المشاة والدراجات الهوائية والسيارات الأخرى. يجب تدريب نظام رؤية الكمبيوتر للسيارة على التعرف على كل شيء باستمرار، وإلا قد يفشل في إصدار أمر الفرملة في بعض الأحيان. كما يجب أن يكون التدريب دقيقًا للغاية، وإلا فقد يفرمل باستمرار بسبب تصنيف صور غير ضارة على أنها تهديدات.
إليك بعض مجموعات البيانات مفتوحة المصدر الأكثر شيوعًا المستخدمة في التجزئة الدلالية وتجزئة الصور:
فئات الكائنات المرئية باسكال (Pascal VOC): تتكون مجموعة بيانات Pascal VOC من العديد من فئات الكائنات المختلفة، والمربعات المحيطة، وخرائط التجزئة القوية.
MS COCO: يحتوي MS COCO على حوالي 330000 صورة وشرح للعديد من المهام بما في ذلك الكشف والتجزئة والتعليق على الصور.
Cityscapes: تفسر مجموعة بيانات cityscapes الشهيرة بيانات من البيئات الحضرية وتتكون من 5000 صورة مع 20000 تعليق توضيحي و30 تصنيفاً للفئات.