Mein IBM

Anmelden

Was ist semantische Segmentierung?

Semantische Segmentierung ist eine Aufgabe der Computer Vision, die Pixeln mithilfe eines Deep-Learning-Algorithmus (DL) eine Klassenbezeichnung zuweist. Sie ist eine von drei Unterkategorien im Gesamtprozess der Bildsegmentierung, die Computern hilft, visuelle Informationen zu verstehen.

Die semantische Segmentierung identifiziert Pixelsammlungen und klassifiziert sie nach verschiedenen Eigenschaften. Die anderen beiden Unterkategorien der Bildsegmentierung sind Instanzsegmentierung und panoptische Segmentierung.

Bildsegmentierung

Die Bildsegmentierung ist ein durchgängiger Bildanalyseprozess, bei dem ein digitales Bild in mehrere Segmente unterteilt und die in jedem Bereich enthaltenen Informationen klassifiziert werden.

Die drei Arten von Bildsegmentierungsaufgaben – semantische, instanzmäßige und panoptische Segmentierung – weisen einzelnen Pixeln im Bild Labels zu, um die spezifischen Grenzen und Formen verschiedener Objekte und Regionen im Bild zu markieren, und klassifizieren sie anhand von Informationen wie Farbe, Kontrast, Platzierung innerhalb des Bildes und anderen Attributen.

Während die semantische Segmentierung jedes einzelne in einem Bild enthaltene Pixel anhand seiner semantischen Klasse kennzeichnet, werden Instanzsegmentierung und panoptische Segmentierung für unterschiedliche Klassifizierungsaufgaben verwendet.

Instanzsegmentierungs-Modelle konzentrieren sich nur auf die semantischen Klassen in einem Bild, die gezählt werden können: Entitäten und Objekte wie Menschen, Tiere, Bäume, Autos oder Hydranten. Es erkennt jedes einzelne Objekt oder jede einzelne Instanz und gibt dann für jedes einzelne Objekt eine Segmentierungsmaske und ein spezifisches Identifikations-Tag aus.

Panoptische Segmentierungsmodelle umfassen beide Arten von Informationen: Sie führen eine semantische Segmentierung durch und erkennen und segmentieren einzelne Objektinstanzen. Sie liefern eine umfassendere Analyse des Bildes, indem sie jedem Pixel sowohl eine semantische Bezeichnung als auch (gegebenenfalls) eine eindeutige Instanzkennung zuweisen.

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Abonnieren Sie noch heute

Warum ist semantische Bildsegmentierung wichtig?

Semantische Segmentierungsaufgaben helfen Maschinen, die verschiedenen Objektklassen und Hintergrundbereiche in einem Bild zu unterscheiden. Mit dem Aufstieg von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) spielen Bildsegmentierung und die Erstellung von Segmentierungskarten eine wichtige Rolle beim Training von Computern, um wichtigen Kontext in digitalen Bildern wie Landschaften, Fotos von Menschen, medizinische Bilder und vieles mehr zu erkennen.

Lernmodelle zur Bildsegmentierung ermöglichen es Maschinen, visuelle Informationen ähnlich wie das menschliche Gehirn zu interpretieren. Bildsegmentierungsmodelle haben zwar gewisse Gemeinsamkeiten mit Objekterkennungsmodellen, unterscheiden sich aber in einem entscheidenden Punkt: Sie identifizieren verschiedene in einem Bild enthaltene Objekte auf Pixelebene, anstatt diese Informationen durch einen Begrenzungsrahmen anzunähern. Während ein Bildklassifizierungsmodell zwar bestimmen kann, was in einem Bild enthalten ist (aber keine Lokalisierung vornehmen kann), und ein Objekterkennungsmodell bestimmen kann, wo sich das Objekt in einem Bild befindet, ist zur Bestimmung der spezifischen Formen und Grenzen von Entitäten im Bild ein Bildsegmentierungsmodell erforderlich.¹

Mit dem zunehmenden Erfolg von Deep Learning-Algorithmen, die Maschinen bei der Interpretation von Bildern als Daten helfen, werden Maschinen immer besser darin, Objekte zu identifizieren. Während die Bildklassifizierung der Maschine hilft zu verstehen, welche Informationen in einem Bild enthalten sind, ermöglicht die semantische Segmentierung der Maschine, die genaue Position der verschiedenen Arten von visuellen Informationen zu identifizieren sowie den Anfang und das Ende jeder Information.

Mixture of Experts | 25. April, Folge 52

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Die neuesten Podcast-Folgen ansehen

Wie funktioniert die semantische Segmentierung?

Semantische Segmentierungsmodelle erstellen eine Segmentierungskarte eines Eingabebildes. Eine Segmentierungskarte ist im Grunde eine Rekonstruktion des ursprünglichen Bildes, in dem jedes Pixel von seiner semantischen Klasse farbcodiert wurde, um Segmentierungsmasken zu erstellen. Eine Segmentierungsmaske ist einfach ein Teil des Bildes, der sich von anderen Bereichen des Bildes unterscheidet. Beispielsweise enthält eine Segmentierungskarte einen Baum in einem leeren Feld wahrscheinlich drei Segmentierungsmasken: eine für den Baum, eine für den Boden und eine für den Himmel im Hintergrund.

Dazu verwenden semantische Segmentierungsmodelle komplexe neuronale Netze, um verwandte Pixel in Segmentierungsmasken zu gruppieren und die reale semantische Klasse für jede Pixelgruppe (oder jedes Segment) korrekt zu erkennen. Solche Deep Learning-Methoden (DL) erfordern das Trainieren eines Modells auf großen, von menschlichen Experten kommentierten, vorbeschrifteten Datensätzen, wobei die Gewichte und Verzerrungen durch maschinelle Lerntechniken wie Backpropagation und Gradientenabstieg angepasst werden.

DL-Methoden ersetzen andere „traditionelle“ Machine-Learning-Algorithmen wie Support Vector Machines (SVM) und Random Forest. Obwohl tiefe neuronale Netzwerke mehr Zeit, Daten und Rechenressourcen zum Trainieren benötigen, übertreffen sie andere Methoden und wurden schnell zum gewählten Ansatz, nachdem sich frühe Innovationen als erfolgreich erwiesen hatten.

Datensätze für das Training

Für die genaue Klassifizierung von Bilddaten sind Datensätze erforderlich, die aus Pixelwerten bestehen, die Masken für verschiedene Objekte oder Klassenbeschriftungen darstellen, die in einem Bild enthalten sind. Aufgrund der Komplexität der Trainingsdaten für die Bildsegmentierung sind diese Art von Datensätzen in der Regel größer und komplexer als andere Datensätze für maschinelles Lernen.

Es sind viele Open-Source-Bildsegmentierungsdatensätze verfügbar, die eine Vielzahl von semantischen Klassen mit Tausenden von Beispielen und detaillierten Kommentaren für jede Klasse abdecken. Stellen Sie sich zum Beispiel ein Segmentierungsproblem vor, bei dem Computer Vision in einem fahrerlosen Auto beigebracht wird, all die verschiedenen Objekte zu erkennen, für die es bremsen muss, wie Fußgänger, Fahrräder und andere Autos. Das Bildverarbeitungssystem (Computer Vision) des Fahrzeugs muss so trainiert werden, dass es alle diese Objekte konsequent erkennt, sonst könnte es dem Fahrzeug nicht immer sagen, dass es bremsen soll; das Training muss auch extrem genau und präzise sein, sonst könnte es ständig bremsen, nachdem es fälschlicherweise harmlose Objekte als bedenklich eingestuft hat.

Hier sind einige der beliebtesten Open Source-Datensätze, die bei der Bild- und semantischen Segmentierung verwendet werden:

Pascal Visual Object Classes (Pascal VOC): Der Pascal VOC-Datensatz besteht aus vielen verschiedenen Objektklassen, umgebenden Rahmen und zuverlässigen Segmentierungskarten.

MS COCO: MS COCO enthält ca. 330.000 Bilder und Anmerkungen für viele Aufgaben wie Erkennung, Segmentierung und Bildunterschrift.

Cityscapes: Der beliebte Cityscapes-Datensatz interpretiert Daten aus städtischen Umgebungen und besteht aus 5.000 Bildern mit 20.000 Anmerkungen und 30 Klassenlabels.

Semantische Segmentierungsmodelle

Trainierte Modelle erfordern eine robuste Architektur, um ordnungsgemäß zu funktionieren. Hier sind einige häufig verwendete semantische Segmentierungsmodelle.

Fully Convolutional Networks (FCNs)

Ein Fully Convolutional Network (FCN) ist eine moderne neuronale Netzarchitektur, die für die semantische Segmentierung verwendet wird und auf mehreren verbundenen, gefalteten Schichten beruht. Während die traditionelle Architektur mit konvolutionalen neuronalen Netzen (Convolutional Neural Networks, CNN) aus Faltungsschichten und flachen Schichten besteht, die einzelne Beschriftungen ausgeben, ersetzen FCN-Modelle einige dieser flachen Schichten durch 1:1-Faltungsblöcke, die weitere Informationen über das Bild extrahieren können. Durch den Verzicht auf flache, dichtere Schichten zugunsten von Faltungsschichten, Pooling- oder Upsampling-Schichten lassen sich FCN-Netze leichter trainieren.

Upsampling und Downsampling: Wenn das Netz mehr Faltungsschichten aufnimmt, wird die Bildgröße reduziert, was zu weniger räumlichen Informationen sowie Informationen auf Pixelebene führt, ein notwendiger Prozess, der als Downsampling bezeichnet wird. Ganz am Ende dieses Prozesses führen Data Engineers eine Bildoptimierung durch, indem sie die erstellte Karte an Merkmalen wieder auf die Form des Eingabebilds erweitern oder hochrechnen.
Max-Pooling: Max-Pooling ist ein weiteres wichtiges Tool beim Extrahieren von Informationen aus Bereichen eines Bildes und deren Analyse. Beim Max-Pooling wird das größte Element in einem zu analysierenden Bereich ausgewählt, so dass die Ausgabe eine Merkmalskarte mit den auffälligsten Merkmalen aus der vorherigen Merkmalskarte ergeben kann.

U-Nets

Die U-Net-Architektur ist eine Modifikation der ursprünglichen FCN-Architektur, die 2015 eingeführt wurde und durchweg bessere Ergebnisse erzielt. Sie besteht aus zwei Teilen, einem Encoder und einem Decoder. Während der Encoder Faltungsschichten stapelt, die das Bild konsequent downsampeln, um Informationen daraus zu extrahieren, baut der Decoder die Bildmerkmale durch den Prozess der Dekonvolution wieder auf. Die U-Net-Architektur wird vor allem in der Medizin eingesetzt, um krebsartige und nicht krebsartige Tumore in der Lunge und im Gehirn zu identifizieren.

Skip-Verbindungen: Eine wichtige Innovation, die U-Net in FCNs eingeführt hat, sind sogenannte Skip-Verbindungen, mit denen der Ausgang einer Faltungsschicht mit einer anderen, nicht benachbarten Schicht verbunden wird. Dieser Prozess zum Überspringen von Verbindungen reduziert den Datenverlust beim Downsampling und ermöglicht eine Ausgabe mit höherer Auflösung. Jede Faltungsschicht wird unabhängig voneinander hochgerechnet und mit Merkmalen aus anderen Ebenen kombiniert, bis die endgültige Ausgabe das zu analysierende Bild genau wiedergibt.

DeepLab

Das semantische Segmentierungsmodell DeepLab wurde 2015 von Google entwickelt, um die Architektur des ursprünglichen FCN weiter zu verbessern und noch präzisere Ergebnisse zu erzielen. Während die Schichtenstapel in einem FCN-Modell die Bildauflösung erheblich reduzieren, verwendet die DeepLab-Architektur einen Prozess namens „Atrous Convolution“, um die Daten hochzurechnen. Mit dem Atrous-Faltungsprozess können Faltungskerne Informationen aus einem Bild entfernen und Lücken zwischen den Kernelparametern hinterlassen.

Der Ansatz von DeepLab zur erweiterten Faltung zieht Daten aus dem größeren Sichtfeld und behält dabei die gleiche Auflösung bei. Der Merkmalsraum wird dann durch einen vollständig verbundenen bedingten Zufallsfeld-Algorithmus (CRF) gezogen, sodass mehr Details erfasst und für die pixelweise Verlustfunktion verwendet werden können, was zu einer klareren, genaueren Segmentierungsmaske führt.

Pyramid Scene Parsing Network (PSPNet)

2017 wurde ein neuer Segmentierungsalgorithmus für die Bildsegmentierung eingeführt. PSPNet stellt ein Pyramidenanalysemodul bereit, das kontextbezogene Bild-Datensätze mit einer höheren Genauigkeit als seine Vorgänger sammelt. Wie seine Vorgänger verwendet die PSPNet-Architektur den Encoder-Decoder-Ansatz, aber während DeepLab für die Berechnungen auf Pixelebene eine Hochskalierung anwendet, fügt PSPNet eine neue Pyramiden-Pooling-Schicht hinzu, um seine Ergebnisse zu erzielen. Durch das Multi-Scale-Pooling kann PSPNet ein größeres Fenster an Bildinformationen analysieren als andere Modelle.

Anwendungsfälle für semantische Segmentierung

Autonome Fahrzeuge

Selbstfahrende Autos nutzen die semantische Segmentierung, um die Welt um sich herum zu sehen und in Echtzeit darauf zu reagieren. Die semantische Segmentierung unterteilt das, was das Auto sieht, in kategorisierte visuelle Bereiche wie Fahrspuren auf einer Straße, andere Autos und Kreuzungen. Das Wissen, das dem Auto durch die semantische Segmentierung zur Verfügung gestellt wird, ermöglicht es ihm, sicher zu navigieren und sein Ziel zu erreichen sowie wichtige Maßnahmen zu ergreifen, um auf unerwartete Ereignisse zu reagieren, z. B. einen Fußgänger, der die Straße überquert, oder ein anderes Auto, das plötzlich bremst.

Medizinische Diagnostik

Viele gängige medizinische Verfahren wie CT-Scans, Röntgenaufnahmen und MRTs basieren auf Bildanalysen. Während diese Aufgabe in der Vergangenheit in der Regel von medizinischem Fachpersonal übernommen wurde, erzielen medizinische Bildsegmentierungsmodelle heute ähnliche Ergebnisse. Durch die Analyse des Bildes und das Ziehen exakter Grenzen um die verschiedenen Objekte darin kann die mit semantischer Segmentierung ausgestattete KI helfen, Anomalien zu erkennen und sogar mögliche Diagnosen vorzuschlagen.

Landwirtschaft

Landwirte nutzen KI, Automatisierung und semantische Segmentierung, um den Befall ihrer Pflanzen zu erkennen und sogar das Sprühen von Pestiziden zu automatisieren. Computer Vision kann dem Landwirt sagen, welche Teile eines Feldes potenziell infiziert oder gefährdet sind, und ein automatisiertes System kann Maßnahmen ergreifen, um einen Schädling zu beseitigen.

Fotografie

Semantische Segmentierung wird häufig verwendet, um Kameras zu ermöglichen, zwischen Hoch- und Querformat zu wechseln, einen Filter hinzuzufügen oder zu entfernen oder einen Effekt zu erzeugen. Alle beliebten Filter und Features in Apps wie Instagram und TikTok verwenden semantische Segmentierung, um Autos, Gebäude, Tiere und andere Objekte zu identifizieren, damit die ausgewählten Filter oder Effekte angewendet werden können.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Weitere Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Ressourcen

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Zu mehr KI-Know-how

Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.

IBM AI Academy

Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen

Fußnoten

¹„Practical Machine Learning for Computer Vision“, Lakshmanan, Valliappa, Gorner, Martin and Gillard, Ryan, O’Reilly Media, Juli 2021