Was ist Ensemble-Lernen?

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Ensemble-Lernen fasst mehrere Lernende zusammen, um die Vorhersageleistung zu verbessern. Es wurde als Reaktion auf Probleme eingeführt, die sich aus begrenzten Datensätzen ergeben.

Das Lernen im Ensemble ist eine Technik des maschinellen Lernens, bei der zwei oder mehr Lernende (z. B. Regressions -Modelle, neuronale Netze) zusammengefasst werden, um bessere Vorhersagen zu treffen. Mit anderen Worten: Ein Ensemble-Modell kombiniert mehrere Einzelmodelle, um genauere Vorhersagen zu treffen als ein einzelnes Modell allein.¹ Manchmal wird diese Technik in Quellen auch als Ausschuss-basiertes Lernen bezeichnet. Das Ensemble-Lernen beruht auf dem Prinzip, dass eine Kollektivität von Lernenden eine größere Gesamtgenauigkeit erzielt als ein einzelner Lernender.² Tatsächlich belegen Forschungsergebnisse die Wirksamkeit mit Modellen des maschinellen Lernens und Convolutional Neural Networks (CNNs).

Eine Anmerkung zur Terminologie: Basislernende, Basismodell und in einigen Fällen auch Basisschätzer bezieht sich auf das einzelne Modell oder die Modelle, die in Ensemble-Algorithmen verwendet werden. In der Literatur werden die Basislernende weiter in starke und schwache Lernende unterteilt. Schwache Modelle oder Lernende werden als solche definiert, die kaum besser abschneiden als zufälliges Raten. Bei binären Klassifizierungsproblemen sind schwache Klassifikatoren formal diejenigen, die eine Genauigkeit von etwa fünfzig Prozent erreichen. Im Gegensatz dazu erzielen starke Modelle oder Lernende eine hervorragende Vorhersageleistung, die bei der binären Klassifizierung als eine Genauigkeit von mindestens achtzig Prozent formalisiert wird.³

Beachten Sie, dass einige Quellen schwache Lernende und Basislernende zusammenfassen, da Ensemble-Methoden, insbesondere sequenzielle Methoden, schwache Lernende effektiv zu starken Lernenden machen.⁴

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Warum Ensemble-Lernen nutzen?

Abwägung zwischen Verzerrung und Varianz

Der Bias-Varianz-Kompromiss ist ein bekanntes Problem beim maschinellen Lernen und ein motivierendes Prinzip hinter vielen Regularisierungstechniken . Wir können sie wie folgt definieren:

– Verzerrung misst die durchschnittliche Differenz zwischen vorhergesagten Werten und tatsächlichen Werten. Wenn die Verzerrung zunimmt, sagt ein Modell anhand eines Trainingsdatensatzes weniger genau voraus. Eine hohe Verzerrung bezieht sich auf einen hohen Fehler im Training. Unter Optimierung versteht man Versuche, die Verzerrung zu reduzieren.

– Varianz misst die Differenz zwischen den Vorhersagen verschiedener Realisierungen eines bestimmten Modells. Mit zunehmender Varianz sagt ein Modell weniger genau über nicht sichtbare Daten voraus. Eine hohe Varianz bezieht sich auf einen hohen Fehler bei der Prüfung und Validierung. Die Generalisierung bezieht sich auf den Versuch, die Varianz zu reduzieren.

Verzerrung und Varianz repräsentieren somit umgekehrt die Modellgenauigkeit bei Trainings- bzw. Testsätzen.⁵ Dies sind zwei von drei Begriffen, die die Gesamtfehlerquote eines Modells ausmachen, wobei der dritte der nicht reduzierbare Fehler ist. Dieser dritte Begriff bezeichnet Fehler, die aus der inhärenten Zufälligkeit eines Datensatzes resultieren. Der Gesamtmodellfehler kann durch die Formel definiert werden:⁶

Formel für den Gesamtfehler beim Ensemble Learning

Viele Modelle statt nur einem

Jeder Trainingsalgorithmus für ein Modell besteht aus zahlreichen Variablen – z. B. Trainingsdaten, Hyperparametern usw. –, die sich auf den Gesamtfehler des resultierenden Modells auswirken. Daher kann selbst ein einziger Trainingsalgorithmus verschiedene Modelle erzeugen, die jeweils ihre eigene Verzerrung, Varianz und nicht reduzierbare Fehlerrate aufweisen. Durch die Kombination mehrerer unterschiedlicher Modelle können Ensemble-Algorithmen eine niedrigere Gesamtfehlerquote erzielen, während die Komplexität und die Vorteile jedes einzelnen Modells erhalten bleiben, wie z. B. eine besonders geringe Verzerrung für eine bestimmte Teilmenge von Daten.⁷

Untersuchungen deuten darauf hin, dass das resultierende Ensemble-Modell im Allgemeinen umso genauer ist, je größer die Vielfalt der kombinierten Modelle ist. Das Lernen im Ensemble kann somit Regressionsprobleme wie Überanpassung angehen, ohne die Modellverzerrung zu beeinträchtigen. Tatsächlich deuten Forschungsergebnisse darauf hin, dass Ensembles, die aus verschiedenen nicht-regularisierten Modellen bestehen (d. h. Modelle, die zu stark an ihre Trainingsdaten angepasst sind), einzelne regularisierte Modelle übertreffen.⁸ Darüber hinaus können Techniken des Ensemble-Lernens dazu beitragen, Probleme zu lösen, die sich aus hochdimensionalen Daten ergeben, und so effektiv als Alternative zur Reduzierung der Dimensionalität dienen.

Arten von Ensemble-Modellen

In der Literatur werden Ensemble-Lernmethoden im Bereich des maschinellen Lernens in zwei Gruppen eingeteilt: parallel und sequenziell.

- Parallele Methoden schulen jeden einzelnen Lernenden getrennt von den anderen. Wie der Name schon sagt, schulen parallele Ensembles die Grundschüler parallel und unabhängig voneinander.

- Sequentielle Methoden trainieren einen neuen Basislernenden, sodass Fehler, die das im vorherigen Schritt trainierte Vorgängermodell gemacht hat, minimiert werden. Mit anderen Worten: Bei sequenziellen Methoden werden Basismodelle schrittweise erstellt.⁹

Diagramm, das parallele und sequenzielle Ensembles darstellt.

Parallele Methoden werden weiter in homogene und heterogene Methoden unterteilt. Homogene parallele Ensembles verwenden denselben Basislernalgorithmus, um alle Komponentenbasislernenden zu erzeugen. Heterogene parallele Ensembles verwenden unterschiedliche Algorithmen, um Basislernende zu erzeugen.¹⁰

Stimmabgabe

Wie kombinieren Ensemble-Methoden Basislernende zu einem endgültigen Lernenden? Einige Techniken, z. B. Stacking – Verwendung separater Algorithmen für maschinelles Lernen, um einen Ensemble-Lernenden aus den Basislernern zu trainieren. Eine gängige Methode zur Konsolidierung der Vorhersagen der Lernenden ist jedoch die Abstimmung – genauer gesagt die Mehrheitsentscheidung.

Bei der Mehrheitsentscheidung wird die Vorhersage jedes einzelnen Lernenden für eine bestimmte Dateninstanz berücksichtigt und eine endgültige Vorhersage ausgegeben, die von der Mehrheit der Lernenden bestimmt wird. Bei einem binären Klassifizierungsproblem beispielsweise werden bei der Mehrheitsentscheidung die Vorhersagen jedes einzelnen Basisklassifikators für eine bestimmte Dateninstanz herangezogen und die Mehrheitsvorhersage als endgültige Vorhersage verwendet. Die gewichtete Mehrheitsentscheidung ist eine Erweiterung dieser Technik, bei der die Vorhersagen bestimmter Lernender stärker gewichtet werden als die anderer.¹¹

Techniken des Ensemble-Lernens

Zu den drei beliebtesten Ensemble-Lerntechniken gehören Bagging, Boosting und Stacking. Tatsächlich veranschaulichen diese zusammen die Unterschiede zwischen sequenziellen, parallelen, homogenen und heterogenen Arten von Ensemble-Methoden.

Beachten Sie, dass diese Übersicht nicht vollständig ist; es gibt mehrere zusätzliche Ensemblemethoden, wie z. B. Blending und Weighted Average Ensembles. Dies soll lediglich dazu dienen, einige der bekannteren Methoden in der Literatur zu untersuchen.

Bagging

Bagging ist eine homogene parallele Methode, die manchmal als Bootstrap-Aggregation bezeichnet wird. Es verwendet modifizierte Replikate eines bestimmten Trainingsdatensatzes, um mehrere Basislernende mit demselben Trainingsalgorithmus zu trainieren.¹² Das Ensemble-Modul von Scikit-learn in Python enthält Funktionen zur Implementierung von Bagging, wie z. B. BaggingClassifier.

Genauer gesagt wird beim Bagging eine Technik namens Bootstrap-Resampling verwendet, um mehrere neue Datensätze aus einem anfänglichen Trainingsdatensatz abzuleiten, um mehrere Basislernende zu trainieren. Wie funktioniert das? Angenommen, ein Trainingsdatensatz enthält n Trainingsbeispiele. Beim Bootstrap-Resampling werden n Dateninstanzen aus diesem Satz in einen neuen Teilstichprobensatz kopiert, wobei einige anfängliche Instanzen mehr als einmal erscheinen und andere vollständig ausgeschlossen werden. Dies sind Bootstrap-Beispiele. Wenn Sie diesen Vorgang x-mal wiederholen, werden x Iterationen des ursprünglichen Datensatzes erzeugt, die jeweils n Stichproben aus dem ursprünglichen Satz enthalten. Jede Iteration des anfänglichen Satzes wird dann verwendet, um einen separaten Basislernenden mit demselben Lernalgorithmus zu trainieren.¹³

Diagramm, das Bagging im Kontext des Ensemble-Lernens darstellt.

Random Forest ist eine Erweiterung von Bagging, die speziell die Verwendung von Bagging zur Konstruktion von Ensembles randomisierter Decision Trees bezeichnet. Dies unterscheidet sich von standardmäßigen Decision Trees, bei denen jedes Merkmal untersucht wird, um das beste Merkmal für die Aufteilung zu ermitteln. Im Gegensatz dazu werden bei Random Forests iterativ zufällige Teilmengen von Merkmalen ausgewählt, um einen Entscheidungsknoten zu erstellen.¹⁴

Stacking

Stacking oder Stacked Generalization¹⁵ ist eine heterogene parallele Methode, die beispielhaft für das sogenannte Meta-Lernen ist. Meta-Lernen besteht darin, einen Meta-Lernenden aus den Ergebnissen mehrerer Basislernender zu trainieren. Beim Stacking werden mehrere Basislernende aus demselben Datensatz mithilfe eines unterschiedlichen Trainingsalgorithmus für jeden Lernenden gezielt trainiert. Jeder Basislernende erstellt Vorhersagen zu einem unbekannten Datensatz. Diese ersten Modellvorhersagen werden dann zusammengestellt und zum Trainieren eines endgültigen Modells, des Metamodells, verwendet.¹⁶

Beachten Sie, wie wichtig es ist, einen anderen Datensatz als den zu verwenden, der zum Trainieren der Basislernenden verwendet wurde, um den Meta-Lernenden zu trainieren. Die Verwendung desselben Datensatzes zum Trainieren der Basislernenden und des Meta-Lernenden kann zu einer Überanpassung führen. Dies kann erfordern, dass Dateninstanzen aus den Basistrainingsdaten des Lernenden ausgeschlossen werden, um als Testdatensätze zu dienen, die wiederum zu Trainingsdaten für den Meta-Lernenden werden. In der Literatur werden häufig Techniken wie die Kreuzvalidierung empfohlen, um sicherzustellen, dass sich diese Datensätze nicht überschneiden.¹⁷

Ähnlich wie beim Bagging bietet das sklearn.ensemble-Modul in Python verschiedene Funktionen zur Implementierung von Stacking-Techniken.

Boosting

Boosting -Algorithmen sind eine sequenzielle Ensemble-Methode. Beim Boosting gibt es viele Varianten, aber alle folgen dem gleichen allgemeinen Verfahren. Durch Boosting wird ein Lernender anhand eines ersten Datensatzes trainiert, d. Der daraus resultierende Lernende ist in der Regel schwach und klassifiziert viele Proben im Datensatz falsch. Ähnlich wie beim Bagging werden Instanzen aus dem ursprünglichen Datensatz entnommen und verstärkt, um einen neuen Datensatz (d₂) zu erstellen. Im Gegensatz zum Bagging werden beim Boosting jedoch falsch klassifizierte Dateninstanzen aus dem ersten Modell oder Lernenden priorisiert. Ein neuer Lernender wird mit diesem neuen Datensatz d₂ trainiert. Dann wird ein dritter Datensatz (d₃₎ aus d₁ und d₂ erstellt, der die falsch klassifizierten Proben des zweiten Lernenden und die Fälle, in denen d₁ und d₂ nicht übereinstimmen, priorisiert. Der Prozess wird n -mal wiederholt, um n Lernende hervorzubringen. Boosting kombiniert und gewichtet dann alle Lernenden, um endgültige Vorhersagen zu erstellen.¹⁸

Boosting-Algorithmen unterscheiden sich stark darin, wie sie falsch vorhergesagte Dateninstanzen bei der Erstellung eines neuen Datensatzes priorisieren. Zwei der bekanntesten Boosting-Methoden können dies veranschaulichen:

- Adaptives Boosting (AdaBoost) gewichtet Modellfehler. Das heißt, wenn eine neue Iteration eines Datensatzes für das Training des nächsten Lernenden erstellt wird, fügt AdaBoost den falsch klassifizierten Proben des vorherigen Lernenden Gewichte hinzu, wodurch der nächste Lernende diese falsch klassifizierten Proben priorisiert.

- Gradient Boosting verwendet Restfehler beim Training neuer Lernender. Anstatt falsch klassifizierte Proben zu gewichten, verwendet die Gradientenverstärkung Restfehler aus einem vorherigen Modell, um Zielvorhersagen für das nächste Modell festzulegen. Auf diese Weise wird versucht, die Fehlerlücke zu schließen, die ein Modell hinterlassen hat.¹⁹

Leider enthält sklearn keine vordefinierten Funktionen für die Implementierung von Boosting. Die Open-Source-Bibliothek Extreme Gradient Boosting (XGBoost) bietet jedoch Code für die Implementierung von Gradientenverstärkung in Python.

Aktuelle Forschung

Da es schwierig ist, große, fair genutzte, gekennzeichnete Datensätze für die Schulung von Lernenden zu beschaffen, hat das Ensemble-Lernen viele Anwendungen gefunden, um die Leistung der Lernenden mit weniger Daten zu verbessern. So zeigen beispielsweise mehrere aktuelle Studien vielversprechende Ergebnisse bei der Verbesserung der Verallgemeinerbarkeit von Modellen durch den Einsatz von Ensemble-Methoden für Aufgaben der Computervision, wie z. B. das Training mehrerer Modelle mit unterschiedlichen Darstellungen eines Datensatzes²⁰ oder die Kombination mehrerer verzerrter Modelle.²¹

Obwohl Ensemble-Methoden die Verallgemeinerbarkeit verbessern können, können sie dennoch zu Ungerechtigkeiten führen. Beim maschinellen Lernen bezeichnet Fairness Versuche, algorithmische Voreingenommenheit (häufig gegenüber Minderheitengruppen) in automatisierten Systemen zu verringern, die in der Regel durch Lernende entsteht, die mit sensiblen Daten trainiert werden. Eine Handvoll Studien schlägt Metriken, Vorverarbeitungs- und Nachverarbeitungstechniken zur Verbesserung der Fairness in Ensemble-Modellen vor.²² Die fortgesetzten Bemühungen zur Verbesserung der Fairness und der ethischen Praktiken in der KI sind nach wie vor ein dringend benötigter Bereich für die zukünftige Forschung.

IBM X-Force Threat Intelligence Index 2026

Gewinnen Sie mit dem Index „IBM X-Force Threat Intelligence“ Erkenntnisse, um Vorbereitung und Reaktion auf Cyberangriffe schneller und effektiver zu machen.