Bibliotheken für maschinelles Lernen

Autor

Staff Writer

IBM Think

Was sind Bibliotheken für maschinelles Lernen?

Bibliotheken für maschinelles Lernen sind vorgefertigte Codeabschnitte („Bibliotheken“), die für maschinelle Lernprojekte nützlich sind. Da maschinelles Lernen (ML) zuverlässig bestimmte Arten von Aufgaben einbezieht, die in der künstlichen Intelligenz üblich sind, spart es Zeit, mit vorkonfigurierten, geprüften Algorithmen und anderen Werkzeugen zu arbeiten.

Die meisten ML-Bibliotheken bestehen aus Modulen, sodass Entwickler beim Aufbau von ML-Pipelines, die Vorverarbeitung, Schulung, Metriken und andere Aufgaben übernehmen, kombinieren können. Die Bibliotheken sind häufig Open Source und kostenlos nutzbar, und es gibt viele, aus denen sie wählen können: Eine Github-Seite vereint fast 1000 solcher ML-Bibliotheken allein in der Programmiersprache Python. (Python hat sich zur dominierenden Sprache des maschinellen Lernens entwickelt – obwohl ML-Projekte auch in JavaScript, R und anderen Sprachen vorkommen).

Es gibt Bibliotheken für alle Arten von Anwendungen. Die Transformer von Hugging Face bieten einfachen Zugang zu vortrainierten Transformermodellen. Bibliotheken wie Stable-Baselines3 unterstützen verstärkendes Lernen. Bibliotheken für maschinelles Lernen können sinnvoll in zwei Hauptkategorien unterteilt werden. Allgemeine Bibliotheken, die als Frameworks oder Plattformen für maschinelle Lernprojekte dienen. Spezialisierte Bibliotheken können für eine bestimmte Phase oder Komponente eines ML-Projekts verwendet werden.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Allgemeine Bibliotheken für maschinelles Lernen

Allgemeine Bibliotheken für maschinelles Lernen – manchmal auch „Allzweck-Frameworks“ oder „Kernplattformen“ genannt – gibt es in Dutzenden. Vier sind jedoch besonders beliebt und stehen routinemäßig an der Spitze der „Best of“-Liste: TensorFlow (und das eng verwandte Keras), PyTorch und scikit-learn. Jede hat leicht unterschiedliche Stärken, je nach den Bedürfnissen des Projekts oder des Teams.

NumPy
Tensorflow
Keras
PyTorch
Scikit-learn

NumPy

NumPy ist keine ML-Bibliothek im eigentlichen Sinne, sondern vielmehr die Bibliothek, auf der alle ML-Bibliotheken aufbauen. Im Kern geht es beim maschinellen Lernen darum, Muster in großen Datenmengen zu finden. NumPy, eine Bibliothek, die eine als n-dimensionale Arrays bezeichnete Struktur erstellt, hilft bei der Organisation dieser Datenpunkte und der Anwendung mathematischer Funktionen auf sie (ein Zweig der Mathematik, der als lineare Algebra bekannt ist). Diese n-dimensionalen oder multidimensionalen Arrays – also große manipulierbare Zahlencontainer – werden manchmal auch „Tensoren“ genannt, ein Begriff, der in Diskussionen über ML-Bibliotheken häufig vorkommt. (Ein zweidimensionales Array wird als Matrix bezeichnet).

NumPy verarbeitet zwar Tensoren – die zentrale Datenstruktur des maschinellen Lernens –, aber NumPy ist in der Praxis zu begrenzt für die prozessorintensiven Anforderungen des modernen ML. Unter anderem ist Numpy (dessen Wurzeln in den 1990er Jahren liegen) zu alt, um mit den fortschrittlichen Grafikprozessoren (GPU) zu kommunizieren, die für kommerzielle ML-Projekte typischerweise erforderlich sind (sogenannte „GPU-Beschleunigung“), sondern arbeitet nur mit leistungsschwächeren Zentralprozessoren (CPU).

Tensorflow

TensorFlow ist eine allgemeine ML-Bibliothek, die ursprünglich 2015 vom Google Brain-Team entwickelt wurde; nachdem Google die Bibliothek zu einer Open-Source-Bibliothek gemacht hatte, wurde sie immer beliebter. TensorFlow kann nicht nur mit CPU-Prozessoren arbeiten, sondern auch mit leistungsstarken GPU und einem speziellen von Google hergestellten Prozessor, der Tensor Processing Unit (TPU) genannt wird.

TensorFlow eignet sich besonders gut für Deep Learning, eine Variante des maschinellen Lernens, die auf Neural Networks basiert (welche die Struktur des Gehirns nachahmen). „Deep Learning“ wird so genannt, weil es mehrere Schichten zwischen einer Eingabe und einer Ausgabe umfasst. Deep Learning hat sich in kommerziellen Anwendungen wie der Verarbeitung natürlicher Sprache (NLP), der Computer Vision und der Bilderkennung als nützlich erwiesen. TensorFlow stammt von Google und unterstützt viele seiner kommerziellen Anwendungen und Produkte. Es eignet sich hervorragend für die Bereitstellung im großen Maßstab.

Keras

Keras ist eng mit TensorFlow verbunden; ebenfalls von einem Google-Techniker erstellt. Es handelt sich um eine Bibliothek, die in der Regel von Entwicklern verwendet wird, die eine benutzerfreundlichere API für ihre TensorFlow-basierten ML-Projekte wünschen. Eine im Jahr 2025 veröffentlichte Version von Keras bietet Unterstützung für andere Frameworks neben TensorFlow, einschließlich PyTorch. Keras ist auch für seine umfangreiche Dokumentation und hilfreiche Tutorials bekannt.

PyTorch

PyTorch wurde ursprünglich Ende 2016 von Forschern bei Meta entwickelt. Es handelt sich um eine Python-Portierung der älteren Torch-Bibliothek, deren Kern ein Tensor war. Bis 2022, als PyTorch zur Linux Foundation wechselte, hatten über 2.400 Mitwirkende Berichten zufolge über 150.000 Projekte mit PyTorch realisiert. (Open-Source-maschinelles Lernen ist das vorherrschende Paradigma, da das Feld durch umfassende Zusammenarbeit floriert.) Wie TensorFlow ermöglicht auch PyTorch Entwicklern die Durchführung von NumPy-ähnlichen Operationen, allerdings mit GPU statt CPU – was PyTorch zu einem weiteren Deep-Learning-Framework macht.

„PyTorch oder Tensorflow?“ ist oft eine erste Frage für diejenigen, die sich auf ein maschinelles Lernprojekt einlassen (früher gab es auch eine Bibliothek namens Theano; sie wurde 2017 eingestellt). Obwohl es keine falsche Antwort gibt, entwickelt sich PyTorch bei vielen Entwicklern aufgrund seines flexiblen und nachsichtigen („Pythonischen“) Designs und seiner Benutzerfreundlichkeit als Favorit. Die Technologie wird seit langem von Akademikern und Forschern bevorzugt, wird aber zunehmend auch für ambitionierte, skalierbare Anwendungsfälle in der Industrie eingesetzt. Teslas Autopilot wurde beispielsweise mit PyTorch entwickelt und es wird auch von Microsofts Cloud-Computing-Plattform Azure unterstützt. PyTorch ist so beliebt geworden, dass sich ein Ökosystem unterstützender Tools (wie Torchvision und TorchText) um es herum entwickelt hat. Sowohl Tensorflow als auch Pytorch verwenden ein Berechnungsdiagramm – eine Datenstruktur, die den Fluss von Operationen und Variablen während des Modelltrainings darstellt.

IBM ist Mitglied der PyTorch Foundation; es verwendet PyTorch mit seinem watsonx-Portfolio.

Scikit-learn

Scikit-learn (stilisiert als „scikit-learn“ in Kleinbuchstaben und auch als „sklearn“ bekannt) ist eine weitere grundlegende ML Bibliothek, die für die Interoperabilität mit NumPy und einer verwandten, bei Data Scientists beliebten Bibliothek namens SciPy entwickelt wurde, welche wissenschaftliches Rechnen unterstützt. Scikit-learn enthält eine Reihe von ML-Algorithmen, deren Kern die Mustererkennung ist. Dazu gehören beispielsweise Klassifizierungsalgorithmen (z. B. solche, die beurteilen, ob es sich bei einer E-Mail um Spam handelt oder nicht), Regressionsalgorithmen (die Vorhersage-, Forecasting- und Empfehlungssysteme unterstützen) und Clustering-Algorithmen (die ähnliche Elemente in einem Cluster gruppieren). Während scikit-learn ein großartiger Ort für Anfänger ist, um die Grundlagen des maschinellen Lernens zu erlernen – Konzepte wie Datenvorverarbeitung, Datenpipelines, Entscheidungsbäume und Optimierung –, ist es als Engine für die Herstellung kommerzieller Produkte begrenzt. Wie NumPy fehlt es auch scikit-learn an GPU-Beschleunigung, was bedeutet, dass es nicht für Deep-Learning-Modelle geeignet ist und nicht als „Deep-Learning-Bibliothek“ betrachtet wird. Dennoch ist es als Labor für das Testen von Ideen und die Entwicklung von Prototypen immer noch nützlich.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Spezialisierte Bibliotheken für maschinelles Lernen

Der Kern eines jeden ML-Modells – im Wesentlichen der Lernteil – basiert auf einer der oben genannten Basisbibliotheken. Maschinelles Lernen ist jedoch ein komplexes, mehrstufiges Unterfangen, und so haben sich die Bibliotheken weiterentwickelt, um bei den Workflows für bestimmte ML-Aufgaben zu helfen. Darüber hinaus sind verschiedene Branchen (wie der Finanz- oder Medizinbereich) und verschiedene Datentypen (wie Bilder oder Audiodaten) ausreichend unterschiedlich, um von dedizierten ML-Bibliotheken einen Vorteil zu haben. Es würde zwar den Rahmen dieses Artikels sprengen, die fast tausend Open-Source-Bibliotheken zu untersuchen, die sich aus dieser Komplexität ergeben haben, aber es ist hilfreich, einige besonders beliebte Bibliotheken vorzustellen.

Für die Datenanalyse: Pandas

Pandas ist die führende Python-Bibliothek für Data Science, eine Kernfunktion in allen ML-Projekten; wie so viele ML-Bibliotheken ist sie auf NumPy aufgebaut. Pandas geht über die Arrays von NumPy hinaus, indem es eine Struktur hinzufügt, die als „Datenrahmen“ bezeichnet wird und die einer Excel-Tabelle ähnelt. Diese zusätzliche Struktur ermöglicht die Datenmanipulation an großen Datensätzen mit realen Daten.

Für die Datenvisualisierung: matplotlib und seaborn

Zwei beliebte Datenvisualisierungsbibliotheken sind matplotlib und seaborn, um Muster und Erkenntnisse aus visuellen Daten aufzudecken. Ersteres erzeugt Diagramme und Grafiken, letzteres dient dazu, es etwas ML-freundlicher zu gestalten (seaborn kann beispielsweise direkt mit Pandas Datenrahmen arbeiten).

Für die Versuchsverfolgung: MLFlow

Die Einführung eines brauchbaren maschinellen Lernens erfordert eine Menge Experimente und Ausprobieren. Zu diesem Zweck hilft die Bibliothek MLFlow Teams dabei, ML-Modelle, Parameter und Ergebnisse zu protokollieren sowie die Debugging-Aktivitäten zu verwalten und trainierte Modelle in etwas zu verschieben, das bereit zum Versand ist.

Data Science und MLOps für Data Leader

Schließen Sie sich mit anderen Führungskräften zusammen, um die drei wesentlichen Säulen von MLOps und vertrauenswürdiger KI voranzutreiben: Vertrauen in Daten, Vertrauen in Modelle und Vertrauen in Prozesse.

Ressourcen

Zu mehr ML-Know-how

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Maschinelles Lernen erklärt

„Techsplainers“ von IBM erklärt die Grundlagen des maschinellen Lernens – von Schlüsselkonzepten bis hin zu realen Anwendungsfällen. Klare, kurze Folgen helfen Ihnen, die Grundlagen schnell zu erlernen.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

IBM Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Erkunden Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Weitere Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen