Was ist semantische Segmentierung?
Erkunden Sie IBM® watsonx.data
Ein Mann sitzt an einem Computertisch mit einem Bild zwischen dem Schreibtisch und den Servern und Pfeilen, die sie verbinden

Semantische Segmentierung ist eine Computer Vision-Aufgabe, die Pixeln mithilfe eines Deep Learning-Algorithmus (DL) eine Klassenbezeichnung zuweist. Sie ist eine von drei Unterkategorien im Gesamtprozess der Bildsegmentierung, die Computern hilft, visuelle Informationen zu verstehen. Die semantische Segmentierung identifiziert Pixelsammlungen und klassifiziert sie nach verschiedenen Eigenschaften. Die anderen beiden Unterkategorien der Bildsegmentierung sind Instanzsegmentierung und panoptische Segmentierung.

Bildsegmentierung

Die Bildsegmentierung ist ein durchgängiger Bildanalyseprozess, bei dem ein digitales Bild in mehrere Segmente unterteilt und die in jedem Bereich enthaltenen Informationen klassifiziert werden. Die drei Arten von Bildsegmentierungsaufgaben – semantische, instanzmäßige und panoptische Segmentierung – weisen einzelnen Pixeln im Bild Labels zu, um die spezifischen Grenzen und Formen verschiedener Objekte und Regionen im Bild zu markieren, und klassifizieren sie anhand von Informationen wie Farbe, Kontrast, Platzierung innerhalb des Bildes und anderen Attributen.

Während die semantische Segmentierung jedes einzelne in einem Bild enthaltene Pixel anhand seiner semantischen Klasse kennzeichnet, werden Instanzsegmentierung und panoptische Segmentierung für unterschiedliche Klassifizierungsaufgaben verwendet. Instanzsegmentierungs-Modelle konzentrieren sich nur auf die semantischen Klassen in einem Bild, die gezählt werden können: Entitäten und Objekte wie Menschen, Tiere, Bäume, Autos oder Hydranten. Es erkennt jedes einzelne Objekt oder jede einzelne Instanz und gibt dann für jedes einzelne Objekt eine Segmentierungsmaske und ein spezifisches Identifikations-Tag aus. Panoptische Segmentierungsmodelle umfassen beide Arten von Informationen: Sie führen eine semantische Segmentierung durch und erkennen und segmentieren einzelne Objektinstanzen. Sie liefern eine umfassendere Analyse des Bildes, indem sie jedem Pixel sowohl eine semantische Bezeichnung als auch (gegebenenfalls) eine eindeutige Instanzkennung zuweisen.

Schauen Sie sich IBM® watsonx.ai näher an

Erfahren Sie, wie Sie KI-Workloads für alle Ihre Daten überall skalieren können.

Ähnliche Inhalte

IBM Newsletter abonnieren

Warum ist semantische Bildsegmentierung wichtig?

Semantische Segmentierungsaufgaben helfen Maschinen, die verschiedenen Objektklassen und Hintergrundbereiche in einem Bild zu unterscheiden. Mit dem Aufstieg von Künstlicher Intelligenz (KI) und Maschinellem Lernen (ML) spielen Bildsegmentierung und die Erstellung von Segmentierungskarten eine wichtige Rolle beim Training von Computern, um wichtigen Kontext in digitalen Bildern wie Landschaften, Fotos von Menschen, medizinische Bilder und vieles mehr zu erkennen.

Lernmodelle zur Bildsegmentierung ermöglichen es Maschinen, visuelle Informationen ähnlich wie das menschliche Gehirn zu interpretieren. Bildsegmentierungsmodelle haben zwar gewisse Gemeinsamkeiten mit Objekterkennungsmodellen, unterscheiden sich aber in einem entscheidenden Punkt: Sie identifizieren verschiedene in einem Bild enthaltene Objekte auf Pixelebene, anstatt diese Informationen durch einen Begrenzungsrahmen anzunähern. Während ein Bildklassifizierungsmodell zwar bestimmen kann, was in einem Bild enthalten ist (aber keine Lokalisierung vornehmen kann), und ein Objekterkennungsmodell bestimmen kann, wo sich das Objekt in einem Bild befindet, ist zur Bestimmung der spezifischen Formen und Grenzen von Entitäten im Bild ein Bildsegmentierungsmodell erforderlich.1

Mit dem zunehmenden Erfolg von Deep Learning-Algorithmen, die Maschinen bei der Interpretation von Bildern als Daten helfen, werden Maschinen immer besser darin, Objekte zu identifizieren. Während die Bildklassifizierung der Maschine hilft zu verstehen, welche Informationen in einem Bild enthalten sind, ermöglicht die semantische Segmentierung der Maschine, die genaue Position der verschiedenen Arten von visuellen Informationen zu identifizieren sowie den Anfang und das Ende jeder Information.

Wie funktioniert die semantische Segmentierung? 

Semantische Segmentierungsmodelle erstellen eine Segmentierungskarte eines Eingabebildes. Eine Segmentierungskarte ist im Grunde eine Rekonstruktion des ursprünglichen Bildes, in dem jedes Pixel von seiner semantischen Klasse farbcodiert wurde, um Segmentierungsmasken zu erstellen. Eine Segmentierungsmaske ist einfach ein Teil des Bildes, der sich von anderen Bereichen des Bildes unterscheidet. Beispielsweise enthält eine Segmentierungskarte einen Baum in einem leeren Feld wahrscheinlich drei Segmentierungsmasken: eine für den Baum, eine für den Boden und eine für den Himmel im Hintergrund.

Dazu verwenden semantische Segmentierungsmodelle komplexe neuronale Netze, um verwandte Pixel in Segmentierungsmasken zu gruppieren und die reale semantische Klasse für jede Pixelgruppe (oder jedes Segment) korrekt zu erkennen. Solche Deep Learning-Methoden (DL) erfordern das Trainieren eines Modells auf großen, von menschlichen Experten kommentierten, vorbeschrifteten Datensätzen, wobei die Gewichte und Verzerrungen durch maschinelle Lerntechniken wie Backpropagation und Gradientenabstieg angepasst werden.

DL-Methoden ersetzen andere „traditionelle“ Machine-Learning-Algorithmen wie Support Vector Machines (SVM) und Random Forest. Obwohl tiefe neuronale Netzwerke mehr Zeit, Daten und Rechenressourcen zum Trainieren benötigen, übertreffen sie andere Methoden und wurden schnell zum gewählten Ansatz, nachdem sich frühe Innovationen als erfolgreich erwiesen hatten.

 

Die Verwendung von Datensätzen für das Training

Für die genaue Klassifizierung von Bilddaten sind Datensätze erforderlich, die aus Pixelwerten bestehen, die Masken für verschiedene Objekte oder Klassenbeschriftungen darstellen, die in einem Bild enthalten sind. Aufgrund der Komplexität der Trainingsdaten für die Bildsegmentierung sind diese Art von Datensätzen in der Regel größer und komplexer als andere Datensätze für maschinelles Lernen.

Es sind viele Open Source-Bildsegmentierungsdatensätze verfügbar, die eine Vielzahl von semantischen Klassen mit Tausenden von Beispielen und detaillierten Kommentaren für jede Klasse abdecken. Stellen Sie sich zum Beispiel ein Segmentierungsproblem vor, bei dem Computer Vision in einem fahrerlosen Auto beigebracht wird, all die verschiedenen Objekte zu erkennen, für die es bremsen muss, wie Fußgänger, Fahrräder und andere Autos. Das Bildverarbeitungssystem des Fahrzeugs muss so trainiert werden, dass es alle diese Objekte konsequent erkennt, sonst könnte es dem Fahrzeug nicht immer sagen, dass es bremsen soll; das Training muss auch extrem genau und präzise sein, sonst könnte es ständig bremsen, nachdem es fälschlicherweise harmlose Objekte als bedenklich eingestuft hat.

Hier sind einige der beliebtesten Open Source-Datensätze, die bei der Bild- und semantischen Segmentierung verwendet werden:

Pascal Visual Object Classes (Pascal VOC): Der Pascal VOC-Datensatz besteht aus vielen verschiedenen Objektklassen, umgebenden Rahmen und zuverlässigen Segmentierungskarten.

MS COCO: MS COCO enthält ca. 330.000 Bilder und Anmerkungen für viele Aufgaben wie Erkennung, Segmentierung und Bildunterschrift.

Cityscapes: Der beliebte Cityscapes-Datensatz interpretiert Daten aus städtischen Umgebungen und besteht aus 5.000 Bildern mit 20.000 Anmerkungen und 30 Klassenlabels.

 

Semantische Segmentierungsmodelle

Trainierte Modelle erfordern eine robuste Architektur, um ordnungsgemäß zu funktionieren. Hier sind einige häufig verwendete semantische Segmentierungsmodelle.

Fully Convolutional Networks (FCNs)

Ein Fully Convolutional Network (FCN) ist eine moderne neuronale Netzarchitektur, die für die semantische Segmentierung verwendet wird und auf mehreren verbundenen, gefalteten Schichten beruht. Während die traditionelle CNN-Architektur aus Faltungsschichten und flachen Schichten besteht, die einzelne Beschriftungen ausgeben, ersetzen FCN-Modelle einige dieser flachen Schichten durch 1:1-Faltungsblöcke, die weitere Informationen über das Bild extrahieren können. Durch den Verzicht auf flache, dichtere Schichten zugunsten von Faltungsschichten, Pooling- oder Upsampling-Schichten lassen sich FCN-Netze leichter trainieren.

  • Upsampling und Downsampling: Wenn das Netz mehr Faltungsschichten aufnimmt, wird die Bildgröße reduziert, was zu weniger räumlichen Informationen sowie Informationen auf Pixelebene führt, ein notwendiger Prozess, der als Downsampling bezeichnet wird. Ganz am Ende dieses Prozesses führen Data Engineers eine Bildoptimierung durch, indem sie die erstellte Karte an Merkmalen wieder auf die Form des Eingabebilds erweitern oder hochrechnen.
  • Max-Pooling: Max-Pooling ist ein weiteres wichtiges Tool beim Extrahieren von Informationen aus Bereichen eines Bildes und deren Analyse. Beim Max-Pooling wird das größte Element in einem zu analysierenden Bereich ausgewählt, so dass die Ausgabe eine Merkmalskarte mit den auffälligsten Merkmalen aus der vorherigen Merkmalskarte ergeben kann.

U-Nets

Die U-Net-Architektur ist eine Modifikation der ursprünglichen FCN-Architektur, die 2015 eingeführt wurde und durchweg bessere Ergebnisse erzielt. Sie besteht aus zwei Teilen, einem Encoder und einem Decoder. Während der Encoder Faltungsschichten stapelt, die das Bild konsequent downsampeln, um Informationen daraus zu extrahieren, baut der Decoder die Bildmerkmale durch den Prozess der Dekonvolution wieder auf. Die U-Net-Architektur wird vor allem in der Medizin eingesetzt, um krebsartige und nicht krebsartige Tumore in der Lunge und im Gehirn zu identifizieren.

  • Skip-Verbindungen: Eine wichtige Innovation, die U-Net in FCNs eingeführt hat, sind sogenannte Skip-Verbindungen, mit denen der Ausgang einer Faltungsschicht mit einer anderen, nicht benachbarten Schicht verbunden wird. Dieser Prozess zum Überspringen von Verbindungen reduziert den Datenverlust beim Downsampling und ermöglicht eine Ausgabe mit höherer Auflösung. Jede Faltungsschicht wird unabhängig voneinander hochgerechnet und mit Merkmalen aus anderen Ebenen kombiniert, bis die endgültige Ausgabe das zu analysierende Bild genau wiedergibt.

DeepLab

Das semantische Segmentierungsmodell DeepLab wurde 2015 von Google entwickelt, um die Architektur des ursprünglichen FCN weiter zu verbessern und noch präzisere Ergebnisse zu erzielen. Während die Schichtenstapel in einem FCN-Modell die Bildauflösung erheblich reduzieren, verwendet die DeepLab-Architektur einen Prozess namens „Atrous Convolution“, um die Daten hochzurechnen. Mit dem Atrous-Faltungsprozess können Faltungskerne Informationen aus einem Bild entfernen und Lücken zwischen den Kernelparametern hinterlassen.

Der Ansatz von DeepLab zur erweiterten Faltung zieht Daten aus dem größeren Sichtfeld und behält dabei die gleiche Auflösung bei. Der Merkmalsraum wird dann durch einen vollständig verbundenen bedingten Zufallsfeld-Algorithmus (CRF) gezogen, sodass mehr Details erfasst und für die pixelweise Verlustfunktion verwendet werden können, was zu einer klareren, genaueren Segmentierungsmaske führt.

Pyramid Scene Parsing Network (PSPNet)

2017 wurde ein neuer Segmentierungsalgorithmus für die Bildsegmentierung eingeführt. PSPNet stellt ein Pyramidenanalysemodul bereit, das kontextbezogene Bild-Datensätze mit einer höheren Genauigkeit als seine Vorgänger sammelt. Wie seine Vorgänger verwendet die PSPNet-Architektur den Encoder-Decoder-Ansatz, aber während DeepLab für die Berechnungen auf Pixelebene eine Hochskalierung anwendet, fügt PSPNet eine neue Pyramiden-Pooling-Schicht hinzu, um seine Ergebnisse zu erzielen. Durch das Multi-Scale-Pooling kann PSPNet ein größeres Fenster an Bildinformationen analysieren als andere Modelle.

Anwendungsfälle für semantische Segmentierung
Autonome Fahrzeuge

Selbstfahrende Autos nutzen die semantische Segmentierung, um die Welt um sich herum zu sehen und in Echtzeit darauf zu reagieren. Die semantische Segmentierung unterteilt das, was das Auto sieht, in kategorisierte visuelle Bereiche wie Fahrspuren auf einer Straße, andere Autos und Kreuzungen. Das Wissen, das dem Auto durch die semantische Segmentierung zur Verfügung gestellt wird, ermöglicht es ihm, sicher zu navigieren und sein Ziel zu erreichen sowie wichtige Maßnahmen zu ergreifen, um auf unerwartete Ereignisse zu reagieren, z. B. einen Fußgänger, der die Straße überquert, oder ein anderes Auto, das plötzlich bremst.

Medizinische Diagnostik

Viele gängige medizinische Verfahren wie CT-Scans, Röntgenaufnahmen und MRTs basieren auf Bildanalysen. Während diese Aufgabe in der Vergangenheit in der Regel von medizinischem Fachpersonal übernommen wurde, erzielen medizinische Bildsegmentierungsmodelle heute ähnliche Ergebnisse. Durch die Analyse des Bildes und das Ziehen exakter Grenzen um die verschiedenen Objekte darin kann die mit semantischer Segmentierung ausgestattete KI helfen, Anomalien zu erkennen und sogar mögliche Diagnosen vorzuschlagen.

Landwirtschaft

Landwirte nutzen KI, Automatisierung und semantische Segmentierung, um den Befall ihrer Pflanzen zu erkennen und sogar das Sprühen von Pestiziden zu automatisieren. Computer Vision kann dem Landwirt sagen, welche Teile eines Feldes potenziell infiziert oder gefährdet sind, und ein automatisiertes System kann Maßnahmen ergreifen, um einen Schädling zu beseitigen.

Fotografie

Semantische Segmentierung wird häufig verwendet, um Kameras zu ermöglichen, zwischen Hoch- und Querformat zu wechseln, einen Filter hinzuzufügen oder zu entfernen oder einen Effekt zu erzeugen. Alle beliebten Filter und Features in Apps wie Instagram und TikTok verwenden semantische Segmentierung, um Autos, Gebäude, Tiere und andere Objekte zu identifizieren, damit die ausgewählten Filter oder Effekte angewendet werden können.

Semantische Segmentierungslösungen
Daten und KI IBM® watsonx.data

Semantische Segmentierung und Bildsegmentierung spielen eine entscheidende Rolle bei der Bildverarbeitung für KI-Workloads. IBM® watsonx.data nutzt mehrere wichtige KI-Open-Source-Tools und -Technologien und kombiniert sie mit IBM Forschungsinnovationen, um zuverlässige, effiziente KI-Workflows für das moderne Unternehmen zu ermöglichen.

Erfahren Sie mehr über IBM® watsonx.data

Zugehörige Ressourcen IBM unterstützt Unternehmen bei der Skalierung von KI-Workloads

Erfahren Sie mehr über IBM® watsonx.data, einen Datenspeicher, mit dem Unternehmen ihre strukturierten und unstrukturierten Daten problemlos vereinheitlichen und verwalten können.

IBM® watsonx.data: Ein offener, verwalteter Hybrid-Datenspeicher

Entdecken Sie, wie IBM® watsonx.data Unternehmen dabei hilft, die Herausforderungen der komplexen Datenlandschaft von heute zu meistern und KI auf ihre Bedürfnisse zu skalieren.

Marktaussichten für KI im Bereich Computer Vision (2021–2022)

Erfahren Sie mehr darüber, wie KI dabei hilft, Informationen zu organisieren und Ergebnisse in Computerumgebungen zu erzielen.

KI vs. maschinelles Lernen vs. Deep Learning vs. neuronale Netze: Was ist der Unterschied?

Erfahren Sie mehr über die Unterschiede zwischen Schlüsselbegriffen, die Computern beibringen, visuelle Informationen zu verstehen und zu verarbeiten.

Machen Sie den nächsten Schritt

Holen Sie sich die Funktionen, die Sie benötigen, mit IBM® watsonx.data, einem offenen, hybriden, verwalteten Datenspeicher zur Skalierung von KI-Workloads für alle Ihre Daten, überall.

Entdecken sie IBM® watsonx.data
Fußnoten

1„Practical Machine Learning for Computer Vision“ (Link befindet sich außerhalb von ibm.com), Lakshmanan, Valliappa, Gorner, Martin and Gillard, Ryan, O'Reilly Media, Juli 2021