Unter KI-Inferenz versteht man die Fähigkeit trainierter KI-Modelle, Muster zu erkennen und aus Informationen, die ihnen vorher nicht bekannt waren, Schlussfolgerungen zu ziehen.
KI-Inferenz ist entscheidend für den Fortschritt von KI-Technologien und bildet die Basis für einige ihrer faszinierendsten Anwendungen, wie beispielsweise die generative KI, die die beliebte Anwendung ChatGPT antreibt. KI-Modelle stützen sich auf KI-Inferenz, um die Art und Weise nachzuahmen, wie Menschen denken, argumentieren und auf Eingaben reagieren.
Die KI-Inferenz beginnt mit dem Training eines KI-Modells anhand eines großen Datensatzes mit Entscheidungsalgorithmen. KI-Modelle bestehen aus Entscheidungsalgorithmen, die auf Neural Networks trainiert werden –großen Sprachmodellen(LLMs), die wie ein menschliches Gehirn aufgebaut sind. Beispielsweise kann ein KI-Modell, das für die Gesichtserkennung entwickelt wurde, mit Millionen von Bildern des menschlichen Gesichts trainiert werden. Schließlich lernt es, Merkmale wie Augenfarbe, Nasenform und Haarfarbe genau zu identifizieren, und kann diese dann verwenden, um eine Person in einem Bild zu erkennen.
Obwohl KI-Inferenz und Machine Learning (ML) eng miteinander verbunden sind, sind sie zwei verschiedene Schritte im Lebenszyklus von KI-Modellen.
Wenn KI-Modelle nicht mit einem robusten Datensatz trainiert werden, der für ihre Anwendung geeignet ist, sind sie einfach nicht effektiv. Angesichts der sensiblen Natur dieser Technologie und der großen Aufmerksamkeit, die sie in den Medien1 erfährt, müssen Unternehmen besonders vorsichtig vorgehen. Doch mit branchenübergreifenden Anwendungen, die das Potenzial der digitalen Transformation und skalierbarer Innovation bieten, sind die Vorteile vielfältig:
Obwohl die Vorteile der KI-Inferenz zahlreich sind, ist diese junge, schnell wachsende Technologie nicht ohne Herausforderungen. Hier sind einige der Probleme, mit denen die Branche konfrontiert ist und die Unternehmen, die in KI investieren möchten, berücksichtigen sollten:
KI-Inferenz ist ein komplexer Prozess, bei dem ein KI-Modell anhand geeigneter Datensätze trainiert wird, bis es genaue Antworten ableiten kann. Dies ist ein äußerst rechenintensiver Prozess, der spezialisierte Hardware und Software erfordert. Bevor wir uns den Prozess des Trainierens von KI-Modellen für die KI-Inferenz ansehen, sollten wir einige der spezialisierten Hardwarekomponenten betrachten, die dies ermöglichen:
Die zentrale Recheneinheit (CPU) ist die wichtigste Funktionskomponente eines Computers. Die CPU ist der zentrale Bestandteil eines Computers und verwaltet das Betriebssystem sowie die Ressourcen, die für das Training von KI-Modellen benötigt werden.
Grafikprozessoren (GPUs) oder elektronische Schaltungen, die für leistungsstarke Computergrafik und Bildverarbeitung entwickelt wurden, werden in verschiedenen Geräten verwendet, einschließlich Grafikkarten, Motherboards und Mobiltelefonen. Aufgrund ihrer Fähigkeit zur parallelen Datenverarbeitung werden sie jedoch auch zunehmend beim Training von KI-Modellen eingesetzt. Eine Methode besteht darin, viele GPUs mit einem einzigen KI-System zu verbinden, um die Rechenleistung dieses Systems zu erhöhen.
Field-Programmable Gate Arrays (FPGAs) sind hochgradig anpassbare KI-Beschleuniger, die auf spezielles Wissen angewiesen sind, um für einen bestimmten Zweck umprogrammiert zu werden. Im Gegensatz zu anderen KI-Beschleunigern haben FPGAs ein einzigartiges Design, das auf eine bestimmte Funktion abgestimmt ist und oft mit der Verarbeitung von Daten in Echtzeit zu tun hat, was für die KI-Inferenz entscheidend ist. FPGAs können auf Hardwareebene neu programmiert werden, was ein höheres Maß an Anpassung ermöglicht.
ASICs sind KI-Beschleuniger, die für einen bestimmten Zweck oder eine bestimmte Workload entwickelt wurden, wie Deep Learning im Fall des WSE-3-ASIC-Beschleunigers von Cerebras. ASICs helfen Data Scientists, die KI-Inferenzfunktionen zu beschleunigen und die Kosten zu senken. Im Gegensatz zu FPGAs können ASICs nicht umprogrammiert werden, aber da sie für einen einzigen Zweck konstruiert wurden, bieten sie in der Regel eine höhere Leistung als andere, allgemeinere Beschleuniger. Ein bekanntes Beispiel hierfür ist die Tensor Processing Unit (TPU) von Google, die speziell für das maschinelle Lernen mit neuronalen Netzen entwickelt wurde und die TensorFlow-Software von Google nutzt.
Unternehmen, die im Rahmen ihrer digitalen Transformation in KI-Anwendungen investieren möchten, sollten sich über die Vorteile und Herausforderungen der KI-Inferenz informieren. Für diejenigen, die die verschiedenen Anwendungen der KI-Inferenz gründlich untersucht haben und bereit sind, sie einzusetzen, gibt es fünf Schritte, um eine effektive KI-Inferenz zu etablieren:
Die Aufbereitung der Daten ist entscheidend für die Erstellung effektiver KI-Modelle und -Anwendungen. Unternehmen können Datensätze für KI-Modelle zum Trainieren aus internen oder externen Quellen zusammenstellen – idealerweise eine Kombination aus beiden. Ein weiterer wichtiger Teil der Zusammenstellung der Daten, mit denen Ihre KI trainiert wird, ist die Datenbereinigung, bei der doppelte Einträge entfernt und Formatierungsprobleme gelöst werden.
Sobald ein Datensatz zusammengestellt wurde, ist der nächste Schritt die Auswahl des richtigen KI-Modells für Ihre Anwendung. Diese Modelle reichen von einfach bis komplex, wobei die komplexeren Modelle in der Lage sind, subtilere und genauere Inferenzfähigkeiten zu bieten. Dabei ist es wichtig, den Bedarf Ihres Unternehmens zu berücksichtigen, da das Training komplexerer Modelle mehr Zeit, Geld und Ressourcen erfordern.
Um die gewünschten Ergebnisse aus einer KI-Anwendung zu erhalten, müssen Unternehmen in der Regel viele strenge KI-Trainingsrunden durchlaufen. Während die Modelle trainieren, verbessert sich die Genauigkeit ihrer Inferenz und der Bedarf an Rechenressourcen, wie z. B. Rechenleistung und Latenz, nimmt ab. Wenn das Modell reift, geht es in eine neue Phase über, in der es beginnen kann, aus den Daten, mit denen es gelernt hat, Rückschlüsse auf neue Daten zu ziehen. Dies ist ein spannender Schritt, da man beobachten kann, wie das Modell beginnt, so zu funktionieren, wie es konzipiert wurde.
Bevor Ihr Modell als betriebsbereit gilt, ist es wichtig, den Output auf Ungenauigkeiten, Verzerrungen oder Datenschutzprobleme zu überprüfen und zu überwachen. Bei der Nachbearbeitung, wie diese Phase manchmal genannt wird, erstellen Sie ein schrittweises Verfahren, um die Genauigkeit Ihres Modells zu gewährleisten. In der Nachbearbeitungsphase wird eine Methodik entwickelt, die gewährleistet, dass Ihre KI Ihnen die gewünschten Antworten liefert und wie vorgesehen funktioniert.
Nach strenger Überwachung und Nachbearbeitung ist Ihr KI-Modell bereit für den geschäftlichen Einsatz. Dieser letzte Schritt beinhaltet die Implementierung der Architektur und der Datensysteme, die den Betrieb Ihres KI-Modells ermöglichen, sowie die Entwicklung von Verfahren für das Änderungsmanagement, um die Stakeholder darin zu schulen, wie sie die KI-Anwendung in ihren täglichen Aufgaben einsetzen können.
Je nach Art der erforderlichen KI-Anwendung gibt es unterschiedliche Arten der KI-Inferenz, aus denen Unternehmen wählen können. Wenn ein Unternehmen ein KI-Modell entwickeln möchte, das mit einer Internet der Dinge (IoT)-Anwendung verwendet wird, ist die Streaming-Inferenz aufgrund ihrer Messfunktionen wahrscheinlich die beste Wahl. Wenn ein KI-Modell jedoch dazu ausgelegt ist, mit Menschen zu interagieren, wäre die Online-Inferenz (mit ihren LLM-Funktionen) besser geeignet. Hier sind die drei Arten der KI-Inferenz und die Eigenschaften, die sie einzigartig machen.
Die dynamische Inferenz, auch als Online-Inferenz bekannt, ist die schnellste Art der KI-Inferenz und wird in den beliebtesten LLM-KI-Anwendungen wie z. B. ChatGPT von OpenAI verwendet. Die dynamische Inferenz erstellt Vorhersagen und Outputs sofort auf Anfrage und erfordert danach eine geringe Latenz und schnellen Datenzugriff. Ein weiteres Merkmal der dynamischen Inferenz besteht darin, dass die Outputs so schnell erfolgen können, dass sie nicht vor ihrer Übermittlung an den Endbenutzer überprüft werden können. Dies veranlasst einige Unternehmen dazu, eine zusätzliche Überwachungsebene zwischen dem Output und dem Endbenutzer einzuführen, um die Qualitätskontrolle zu gewährleisten.
Die Batch-Inferenz generiert KI-Vorhersagen offline unter Verwendung großer Datenmengen. Bei diesem Ansatz werden zuvor gesammelte Daten auf Machine-Learning-Algorithmen angewendet. Dies ist zwar nicht ideal für Situationen, in denen ein Output innerhalb von wenigen Sekunden oder weniger erforderlich ist, doch die Batch-Inferenz eignet sich gut für KI-Vorhersagen, die regelmäßig im Laufe des Tages oder im Laufe einer Woche aktualisiert werden, wie z. B. Vertriebs- oder Marketing-Dashboards oder Risikobewertungen.
Die Streaming-Inferenz verwendet eine Pipeline von Daten, die in der Regel durch regelmäßige Messungen von Sensoren geliefert werden, und speist sie in einen Algorithmus ein, der die Daten verwendet, um kontinuierlich Berechnungen und Vorhersagen zu machen. IoT-Anwendungen, wie z. B. KI zur Überwachung eines Kraftwerks oder zur Verkehrsüberwachung in einer Stadt über mit dem Internet verbundene Sensoren, stützen sich auf die Streaming-Inferenz, um Entscheidungen zu treffen.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
1 „Why Companies Are Vastly Underprepared For The Risks Posed By AI“, Forbes, 15. Juni 2023
2 „Onshoring Semiconductor Production: National Security Versus Economic Efficiency“, Council on Foreign Relations, April 2024
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io