Was ist eine Bildklassifizierung?

Was ist eine Bildklassifizierung?

Bei der Bildklassifizierung werden Bilder in vordefinierte Kategorien eingeteilt oder klassifiziert. Beim maschinellen Lernen lernen Modelle, Bilder zu erkennen und zu kategorisieren.

Der Mensch klassifiziert Bilder bereits in jungen Jahren. Wenn ein Lehrer Kindergartenkinder bittet, Bilder von Pflanzen und Tieren in Stapel zu sortieren, nutzen sie die Eigenschaften, die sie über jede Kategorie gelernt haben, um die Aufgabe zu lösen. Jede dieser Kategorien weist unterschiedliche Merkmale auf, die die Pflanzen von den Tieren unterscheiden. Erwachsene erinnern sich möglicherweise nicht daran, die Unterscheidungsmerkmale zwischen den beiden Kategorien gelernt zu haben, da ein Großteil unseres Klassifizierungsvermögens uns von Natur aus gegeben ist.

Einem Modell der künstlichen Intelligenz (KI) beizubringen, dieselbe Aufgabe zu erledigen, kann viel schwieriger sein. Der wesentliche Unterschied besteht darin, dass KI-Modelle das „Sehen“ erlernen müssen, während Menschen mit dieser Fähigkeit geboren werden. Somit sind Menschen von Anfang an in der Lage, zwischen einem Schuh und einem Lebewesen zu unterscheiden. Die regelbasierte Bildklassifizierung ist auf Beschriftungen oder Anmerkungen angewiesen, um diese Unterscheidungen zu treffen. Die statistische Bildklassifizierung übernimmt dieselbe Aufgabe, indem sie Modelle trainiert, in den Bildern eingebettete Muster zu erkennen, wodurch ein Großteil der manuellen Beschriftungsarbeit entfällt.

Was ist Computer Vision?

Computer Vision bezieht sich auf den allgemeineren Zweig der KI, zu dem die Bildklassifizierung gehört. Sie nutzt maschinelles Lernen und oft Neural Networks, damit Computer visuelle Daten wie Bilder und Videos interpretieren können. Obwohl einige Experimente mit Computer Vision bereits in den 1950er Jahren begonnen haben mögen, sind sich die meisten Experten einig, dass die kommerzielle Nutzung dieser Technik erst 1970 begann.

Computer Vision ermöglicht es Computern, nützliche Daten aus dem, was sie sehen, zu extrahieren. Dieser Prozess ermöglicht es ihnen auch, auf Probleme oder Anomalien in den visuellen Daten zu reagieren, indem sie Empfehlungen aussprechen oder sogar Maßnahmen ergreifen. Auch innerhalb der Computer Vision gibt es den Bereich der Bilderkennung. Dieser weit gefasste Begriff beschreibt die Fähigkeit eines Computers, ein Bild oder mehrere Bilder zu interpretieren. Zusammenfassend lässt sich sagen, dass Computer Vision die übergeordnete Kategorie ist, zu der die Aufgaben der Bilderkennung und insbesondere der Bildklassifizierung gehören.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Arten der Bildklassifizierung

Regelbasierte Bildklassifizierung

Diese Methode basiert auf einem streng entwickelten Prozess der Bildsammlung und -kennzeichnung, um der spezifischen Klassifizierungsaufgabe oder dem Klassifizierungsziel gerecht zu werden. Dieser Prozess wird manuell von Experten durchgeführt, die die wichtigsten Merkmale des Bildes auswählen, die die meisten visuellen Informationen liefern. Die regelbasierte Bildklassifizierung gruppiert ähnliche Pixelcluster in Klassen, indem sie diese Regeln anwendet, die auf Fachwissen basieren. Es ermöglicht außerdem eine interpretierbare und anpassbare Klassifizierung, ohne auf komplexe Modelle des maschinellen Lernens angewiesen zu sein.

Stellen Sie sich eine Schachtel mit Fotos vor, die Sie ordnen sollen. Die Sammlung umfasst Fotografien von Seen, Hunden und Autos. Da Ihnen bei dieser Methode keine Hightech-Tools zur Verfügung stehen, müssen Sie eine Liste erstellen. 

Die Liste könnte beispielsweise wie folgt aussehen:

  • Achten Sie bei „Autos“ auf Reifen, Türen und Seitenspiegel.“

  • Bei „Hunden“ achten Sie auf Schlappohren, wedelnde Schwänze und lange Nasen.

  • Suchen Sie bei „Seen“ nach Fotos mit viel Wasser und einer Uferlinie.

Dieses Beispiel veranschaulicht, dass die regelbasierte Klassifizierung auf voreingestellten Regeln und Werkzeugen beruht, die von Menschen erstellt wurden. Diese Methode steht im Gegensatz dazu, einen Computer neue Regeln für sich selbst „lernen“ zu lassen. Diese Form der Bildklassifizierung kann Techniken wie Template-Matching und Schwellenwerte umfassen.

Beim Vorlagenabgleich wird ein Vorlagenbild über eine größere Eingabe verschoben und an jeder Position Metriken berechnet, um Regionen zu finden, die mit dem Vorlagenbild übereinstimmen.

Segmentierung von Bildern durch Umwandlung von Pixelwerten in Binärwerte auf der Grundlage eines festgelegten Grenzwerts. Diese Methode unterscheidet Merkmale anhand ihrer Intensität vom Hintergrund.

In Kombination mit regelbasiertem Reinforcement Learning tragen diese Techniken zu robusten und interpretierbaren Bildklassifizierungssystemen bei. Die regelbasierte Klassifizierung kann durch die Implementierung von k-Nearest-Neighbor- oder Random-Forest-Algorithmen durchgeführt werden.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Statistische Bildklassifizierung 

Diese Klassifizierungsmethode ist etwas komplexer als die regelbasierte Methode der Bildklassifizierung. Die statistische Bildklassifizierung dient dem automatischen Lernen und Erkennen von Mustern in Bildern. Um Bilder effizient zu klassifizieren, stützt sich diese Methode in hohem Maße auf umfangreiche, mit Labels versehene Datensätze und leistungsstarke Architekturen, in der Regel Convolutional Neural Networks (CNNs). Diese CNNs verwenden drei Schichttypen, die jeweils in ihrer Komplexität zunehmen, um Teile des Bildes zu identifizieren. Während die Daten die verschiedenen CNN-Schichten durchlaufen, werden immer mehr Komponenten erkannt, bis das Bild klassifiziert werden kann.

Ein detailliertes Diagramm, das ein Convolutional Neural Network (CNN) bei der Verarbeitung eines Bildes eines Zebras veranschaulicht.
Diagramm eines Convolutional Neural Networks (CNN)

Verteilungsbasierte Methoden

Herkömmliche verteilungsbasierte Techniken beruhen auf klaren Annahmen über die statistischen Eigenschaften der Bilddaten. Methoden wie die Maximum-Likelihood-Schätzung (MLE) und Bayes'sche Klassifikatoren analysieren die Wahrscheinlichkeitsverteilungen von Pixelintensitäten oder Merkmalen, um Klassen zuzuordnen. Bei der Bildklassifizierung ordnet MLE jedes Pixel des Bildes der Klasse zu, deren statistisches Modell die gesammelten Daten am besten erklärt. Die Bayessche Klassifikation verwendet den Satz von Bayes, um die Wahrscheinlichkeit zu berechnen, dass ein Bild zu einer bestimmten Klasse gehört, basierend auf Vorwissen und den gesammelten Daten. Das Theorem erlaubt es, bedingte Wahrscheinlichkeiten zu „invertieren“. Es kombiniert die A-priori-Wahrscheinlichkeiten von Klassen mit der Wahrscheinlichkeit beobachteter Merkmale, um die wahrscheinlichste Klasse für ein bestimmtes Bildsegment vorherzusagen. Diese Algorithmen erfordern eine statistische Modellierung jeder Klasse und führen die Klassifizierung durch, indem sie auf der Grundlage dieser Modelle abschätzen, wie wahrscheinlich es ist, dass ein bestimmtes Pixel oder Segment zu jeder Klasse gehört.

Formel für die bedingte Wahrscheinlichkeit
Formel für die bedingte Wahrscheinlichkeit

Die Maximum-Likelihood-Schätzung (MLE) ist eine statistische Methode, mit der die Parameter eines Modells geschätzt werden, indem die Werte ermittelt werden, die die beobachteten Daten am wahrscheinlichsten machen. Bei der Bildklassifizierung ordnet MLE jedes Pixel oder Segment der Klasse zu, deren statistisches Modell die Wahrscheinlichkeit der Erzeugung dieser beobachteten Daten maximiert.

Distributionsfreie Methoden

Convolutional Neural Networks (CNNs) stellen einen moderneren, verteilungsfreien Ansatz dar, der Merkmale direkt aus den Daten lernt, ohne sich auf klar formulierte statistische Regeln zu stützen. CNNs bestehen aus mehreren Schichten, die Bildmerkmale schrittweise erkennen, beginnend mit den einfachsten bis hin zu den komplexesten. Sie verwenden Operationen wie Faltungen und Pooling. Eine Faltung ist die mathematische Operation, die vom CNN verwendet wird, um Merkmale aus den Eingabedaten und in diesem Fall aus den Bildern zu extrahieren. Bei diesem Vorgang wird ein Filter oder Kernel verwendet, der über die Eingabe gleitet. Beim Pooling wird ebenfalls ein Filter auf die gesamte Eingabe angewendet, jedoch verfügt dieser Filter im Gegensatz zur Faltung nicht über gewichtete Parameter. Das Training von CNNs erfordert umfangreiche, beschriftete Datensätze und Rechenressourcen, führt jedoch häufig zu einer erheblich verbesserten Genauigkeit, da sie in der Lage sind, hierarchische Merkmale automatisch aus Rohbilddaten zu extrahieren.

Eine dreieckige Grafik, die in drei Abschnitte unterteilt ist, die jeweils stilisierte Fahrradsymbole als Funktion haben. Die Pyramide ist in verschiedenen Blautönen schattiert, wodurch ein Farbverlaufseffekt entsteht. Das Design legt Wert auf Einfachheit und geometrische Formen, ohne sichtbaren Text oder numerische Werte.
Diagramm der Hierarchie
Eine visuelle Darstellung der Matrixfilterung, die auf ein numerisches Raster angewendet wird. Das Eingabebild zeigt ein 3x3-Raster mit Zahlen, während der Filter und das Ausgabearray den Transformationsprozess veranschaulichen.
Diagramm eines Convolutional Neural Networks (CNN)-Arrays

Funktionsweise der statistischen Bildklassifizierung

Datenerfassung und -vorverarbeitung: Der erste Schritt besteht darin, eine große und vielfältige Anzahl von Bildern für jede Gruppe zu sammeln. Die Daten müssen gekennzeichnet und anschließend normalisiert werden. Zu den Techniken zur Normalisierung und anderen Techniken zur Datenvergrößerung gehören die Größenanpassung von Bildern auf feste Abmessungen, die Normalisierung von Pixelwerten und vieles mehr.

Modellauswahl: Der nächste Schritt im Workflow ist Modellauswahl. Bei der gewählten Architektur handelt es sich höchstwahrscheinlich um ein CNN. Wie bereits besprochen, beginnt das CNN, komplexere Funktionen zu erkennen, wenn sich die Daten durch seine Schichten verschieben.

Modelltraining und Validierung: Nach der Auswahl werden die gekennzeichneten Bilder in Trainingsdatensätze, Validierungsdatensätze und Testdatensätze unterteilt. Das Netzwerk nutzt diese Datensätze zur Optimierung und passt seine Gewichte wiederholt an, um Fehler zwischen den vorhergesagten Labels und den tatsächlichen Labels zu minimieren. Die Vermeidung von Überanpassung wird durch Validierungsdaten unterstützt, und dieser Trainingsprozess kann fortgesetzt werden, bis die Ergebnisse einen vorab festgelegten Standard erfüllen.

In diesem Schritt könnte ein von Menschen annotierter Bilddatensatz wie ImageNet verwendet werden. ImageNet ist eine riesige Sammlung von über 14 Millionen Bildern. Diese Bilder sind alle organisiert und beschriftet, damit Computer lernen, Objekte in Bildern zu erkennen. Jedes Bild in der Datenbank ist mit bestimmten Categories versehen, die als „Synsets“ bezeichnet werden. Diese Synsets enthalten Dinge wie „Hund“, „Auto“ oder „Apfel“ und verwenden ein Framework namens WordNet.

Funktionsextraktion: Im Gegensatz zur regelbasierten Bildklassifizierung lernen Deep-Learning-Modelle in diesem Schritt ihre eigenen Merkmale aus den extrahierten Rohbilddaten. Dieser Ansatz ermöglicht es dem Netzwerk, interne Darstellungen zu erstellen, um zwischen Gruppen oder Klassen zu unterscheiden.

Bewertung und Bereitstellung: Anschließend wird das Modell anhand von Testdaten bewertet und bei Bedarf optimiert. Das Modell wird dann bereitgestellt, um Vorhersagen für neue Bilder in einer realen Umgebung zu treffen, wenn die erwarteten Metriken erfüllt werden.

Bildklassifizierungsmodelle und -algorithmen

Für die Bildklassifizierung wurden verschiedene Modelle und Algorithmen entwickelt. Sie reichen von Ansätzen wie K-Nearest Neighbors (KNN) über Random Forests und Support Vector Machines (SVM) bis hin zu Architekturen wie AlexNet, GoogLeNet und ResNet. Jede Methode bietet unterschiedliche Stärken in Bezug auf Genauigkeit, Skalierbarkeit und Komplexität. Diese Optionen ermöglichen es Benutzern, zwischen einfacheren Klassifikatoren oder hochentwickelten Convolutional Neural Networks (CNNs) zu wählen, die tiefe hierarchische Funktionen aus Bildern lernen können. Wir werden uns diese Algorithmen und Modelle genauer ansehen.

  • K-Nearest Neighbor (KNN): Dieser Algorithmus ist ein überwachter Lernklassifikator, der häufig für Bildklassifizierungsaufgaben verwendet wird. Dabei wird die euklidische Distanz verwendet, um die Ähnlichkeit neuer Datenpunkte mit allen anderen vorhandenen Datenpunkten in jedem Datensatz zu messen. Bei der Bildklassifizierung wird jedes Bild zunächst als Funktion dargestellt. Eine Funktion kann rohe Pixelwerte, Farbhistogramme oder beliebige numerische Deskriptoren enthalten, die wichtige visuelle Eigenschaften des Bildes erfassen. Die Klassifizierung des Bildes erfolgt durch Vergleich mit den ähnlichsten „k“ Bildern im gelabelten Trainingssatz und die Zuweisung des häufigsten Labels unter diesen Nachbarn. Anschließend wird die zuvor erwähnte euklidische Distanz verwendet, um die Ähnlichkeit zu messen.

  • Random Forest: Ein weiterer überwachter Bildklassifikator, der für seine Flexibilität und Benutzerfreundlichkeit bekannt ist. Der Klassifizierungsalgorithmus besteht aus mehreren Entscheidungsbäumen (Decision Trees). Für jede Ausgabe dieser Entscheidungsbäume wird ein Mittelwert ermittelt und dann kombiniert, um die endgültige Ausgabe zu erzielen. Ein Random Forest klassifiziert Bilder, indem es ein Ensemble aus vielen Entscheidungsbäumen erstellt, die jeweils mit unterschiedlichen zufälligen Beispielbildern und Teilmengen von Merkmalen aus den Daten trainiert wurden. Für ein neues Bild sagt jeder Baum eine Klassenkennzeichnung voraus und die Klasse mit den meisten Stimmen unter allen Bäumen wird zur endgültigen Klassifizierung für dieses Bild.

  • Support Vector Machine (SVM): Dieser Algorithmus für maschinelles Lernen wird häufig für Klassifizierungsprobleme verwendet und identifiziert die ideale Grenze, um den Spielraum zwischen den nächstgelegenen Datenpunkten gegensätzlicher Klassen zu maximieren.

  • AlexNet: Dieses Modell ist ein Vorreiter in der Welt der Deep-Learning-CNNs und erfreute sich aufgrund seines einfachen, aber vielschichtigen Designs großer Beliebtheit. Dieses Modell verwendet ReLU als Aktivierungsfunktion, anstelle von Sigmoid.

  • GoogLeNet/Inception: Dieses von Google erstellte Modell verwendet Inception-Module. Jedes Inception-Modul enthält 4 Pfade mit unterschiedlichen Filtergrößen, und GoogLeNet verfügt über 4 Inception-Module, die parallel zueinander laufen. Die Ergebnisse der einzelnen Inception-Module werden dann zu einem einheitlichen Output kombiniert. Forscher haben herausgefunden, dass die Feinabstimmung anhand eines vorab trainierten Modells wie Inception genauere Ergebnisse liefert.

  • ResNet: Dieses Modell führt Restverbindungen oder Abkürzungen ein, die es Daten ermöglichen, einen anderen Weg zu nehmen und einige Schichten des Netzwerks zu überspringen. ResNet ermöglichte das Training tieferer Netzwerke mit erfolgreicher Modellleistung auf Netzwerken mit bis zu 152 Schichten.

  • Benutzerdefiniertes TensorFlow-Modell: Eine weitere Option ist die Erstellung von Modellen von Grund auf mit TensorFlow und Keras. Dieser Ansatz beinhaltet den Aufbau der Schichten wie Conv2D, MaxPooling2D und Dense. Darüber hinaus ist die Entwicklung der Aktivierungsfunktionen zum Aufbau einer Deep-Learning-Pipeline abgeschlossen, die Bilder nach dem Training anhand von gekennzeichneten Beispielen klassifizieren kann.
Traditionelles ML und Deep Learning ML
Traditionelles ML und Deep Learning ML

Anwendungsfall für die Bildklassifizierung

Automobilindustrie: Sowohl Bildklassifizierung als auch Objekterkennung gewinnen in Fahrzeugen zunehmend an Bedeutung. Die Objekterkennung soll dem Fahrer Echtzeitinformationen über seine Umgebung liefern. Diese Fähigkeit kann in unbekannten Bereichen oder mit hohem Personenverkehr hilfreich sein. Eine effektive Objekterkennung hängt stark von der Effektivität der Bildklassifizierung dieses CNN ab.

Klassifizierung von Pflanzenkrankheiten anhand von Blattbildern: Forscher haben ein Modell entwickelt, das 13 Pflanzenkrankheiten auf gesunden Blättern erkennen kann. Das Modell ist auch in der Lage, ein Blatt oder Blätter von der Umgebung zu unterscheiden. Ein solches Modell könnte von entscheidender Bedeutung sein, wenn es darum geht festzustellen, ob eine Umgebung mit etwas wie der Buchenblattkrankheit (BLD) infiziert ist.

Gesundheitswesen und medizinische Bildgebung: Deep Learning-Bildklassifizierung mit CNNs kann Röntgenbilder von Lungenentzündung-infizierten Lungen liefern. Ärzte und Medizintechniker könnten Fälle von Lungenentzündung möglicherweise schneller und genauer identifizieren und dies gleichzeitig auf kosteneffiziente Weise tun.

Zusammenfassung:

Die Bildklassifizierung ist eine wichtige Komponente der Computer Vision. Es ermöglicht Maschinen, die visuelle Welt auf ähnliche Weise zu verstehen wie Menschen. Von regelbasierten Bildklassifizierungsmethoden, die auf einer manuellen Funktionsauswahl beruhen, bis hin zu fortgeschrittenen statistischen Bildklassifizierungen mit CNNs, die in der Lage sind, subtile Muster mit hoher Genauigkeit zu erkennen, fahren wir fort, diesen Bereich rasant zu entwickeln. Ihre Auswirkungen sind bereits in der Gesundheits-, Automobil- und Umweltbranche spürbar. Dieses Tool ermöglicht Benutzern schnellere Entscheidungsfindung, was zu einer insgesamt höheren Sicherheit führen kann. Da die Bildklassifizierungsmodelle immer ausgefeilter werden, werden sie nicht nur bestehende Anwendungen verbessern, sondern auch die Tür zu völlig neuen Möglichkeiten öffnen.

Weiterführende Lösungen
IBM Maximo Visual Inspection

Nutzen Sie No-Code-Computer-Vision für die Automatisierung von visuellen Inspektionen.

Erfahren Sie mehr über Maximo Visual Inspection
Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

Erkunden Sie die Services im Bereich der künstlichen Intelligenz
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
Machen Sie den nächsten Schritt

Mit IBM Maximo Visual Inspection können Ihre Qualitätskontroll- und Inspektionsteams die Leistungsfähigkeit der KI-Funktionen von Computer Vision nutzen. Nutzen Sie das Potenzial von No-Code-Computer-Vision für die Automatisierung von visuellen Inspektionen.

Erfahren Sie mehr über Maximo Visual Inspection Produkttour starten