Für die genaue Klassifizierung von Bilddaten sind Datensätze erforderlich, die aus Pixelwerten bestehen, die Masken für verschiedene Objekte oder Klassenbeschriftungen darstellen, die in einem Bild enthalten sind. Aufgrund der Komplexität der Trainingsdaten für die Bildsegmentierung sind diese Art von Datensätzen in der Regel größer und komplexer als andere Datensätze für maschinelles Lernen.
Es sind viele Open-Source-Bildsegmentierungsdatensätze verfügbar, die eine Vielzahl von semantischen Klassen mit Tausenden von Beispielen und detaillierten Kommentaren für jede Klasse abdecken. Stellen Sie sich zum Beispiel ein Segmentierungsproblem vor, bei dem Computer Vision in einem fahrerlosen Auto beigebracht wird, all die verschiedenen Objekte zu erkennen, für die es bremsen muss, wie Fußgänger, Fahrräder und andere Autos. Das Bildverarbeitungssystem (Computer Vision) des Fahrzeugs muss so trainiert werden, dass es alle diese Objekte konsequent erkennt, sonst könnte es dem Fahrzeug nicht immer sagen, dass es bremsen soll; das Training muss auch extrem genau und präzise sein, sonst könnte es ständig bremsen, nachdem es fälschlicherweise harmlose Objekte als bedenklich eingestuft hat.
Hier sind einige der beliebtesten Open Source-Datensätze, die bei der Bild- und semantischen Segmentierung verwendet werden:
Pascal Visual Object Classes (Pascal VOC): Der Pascal VOC-Datensatz besteht aus vielen verschiedenen Objektklassen, umgebenden Rahmen und zuverlässigen Segmentierungskarten.
MS COCO: MS COCO enthält ca. 330.000 Bilder und Anmerkungen für viele Aufgaben wie Erkennung, Segmentierung und Bildunterschrift.
Cityscapes: Der beliebte Cityscapes-Datensatz interpretiert Daten aus städtischen Umgebungen und besteht aus 5.000 Bildern mit 20.000 Anmerkungen und 30 Klassenlabels.