Was ist KI-Inferenz?

KI-Inferenz, vereinfacht und erklärt

Beim maschinellen Lernen ist KI-Inferenz die Verwendung eines trainierten KI-Modells, um Vorhersagen auf der Grundlage neuer Daten zu treffen. Im Grunde genommen ist jede Instanz eines Modells der künstlichen Intelligenz, das in einer realen KI-Anwendung tatsächlich Ausgaben erzeugt oder Entscheidungen trifft, eine KI-Inferenz. Einfach ausgedrückt bedeutet KI-Inferenz, dass ein trainiertes Modell die aus seinen Trainingsdaten gelernten Muster anwendet, um die korrekte Ausgabe für eine gegebene Eingabe abzuleiten .

Alles maschinelle Lernen, von Modellen zur Erkennung von E-Mail-Spam über Navigationssysteme für selbstfahrende Autos bis hin zur generativen KI, basiert auf Mustererkennung. Modelle werden „trainiert“, um bei einem Datensatz von Beispielaufgaben oder Datenpunkten gute Ergebnisse zu erzielen. Während des Modelltrainings werden die Parameter (und Hyperparameter) des Modells angepasst, bis die Entscheidungsfindung des Modells den Mustern der Trainingsdaten „entspricht“. Die Grundannahme des maschinellen Lernens lautet: Wenn die Trainingsdaten relevant genug sind für das, was das Modell in realen Szenarien sehen wird, wird es in diesen realen Anwendungsfall genaue Vorhersagen machen.

Während viele KI-Fachbegriffe sehr technisch sind, ist „KI-Inferenz“ eigentlich ein wörtlicher, intuitiver Begriff.

  • Ein Prognosemodell für den Aktienmarkt weiß nicht, wie sich der Kurs einer bestimmten Aktie entwickeln wird; es leitet vielmehr aus dem Vergleich der historischen Kursentwicklung dieser Aktie mit früheren Trends bei Aktienkursbewegungen ab, was als Nächstes geschehen wird.

  • Ein Spam-Erkennungsmodell weiß nicht, ob eine bestimmte E-Mail Spam ist. Es folgert daraus, wie sehr diese E-Mail den Spam-Beispielen ähnelt, die es beim Training gesehen hat, ob es sich um Spam handelt oder nicht.

  • Soziale Netzwerke schließen aus den Inhalten, mit denen Sie und Personen mit ähnlichen Interessen zuvor interagiert haben, auf die Inhalte, mit denen Sie am ehesten interagieren werden.

Während das Ziel des KI-Trainings darin besteht, die Genauigkeit und den Abgleich des Modells zu erreichen, besteht das Ziel der KI-Inferenz darin, das trainierte Modell auf möglichst effiziente und kostengünstige Weise bereitzustellen. Ein und dasselbe KI-Modell kann in verschiedenen Inferenz-Frameworks unterschiedlich funktionieren.

Es gibt keine einzige, „optimale“ Konfiguration für KI-Inferenz. Es gibt viele verschiedene Möglichkeiten, Workloads aufzuteilen, verschiedene Arten von Hardware (und Rechenalgorithmen, mit denen sie verwendet werden können) und verschiedene Umgebungen, in denen auf diese Hardware zugegriffen werden kann. Das ideale Setup für ein bestimmtes Szenario hängt von der Art Ihres Anwendungsfalls und Ihrer Workload ab. Für Unternehmen besteht die Herausforderung in der Regel darin, einen Inferenzansatz zu finden, der den Wunsch nach geringer Latenz mit der Notwendigkeit, kosteneffizient und skalierbar zu sein, in Einklang bringt.

KI-Inferenz vs. KI-Training

Sowohl KI-Inferenz als auch KI-Training beinhalten ein Modell, das Vorhersagen über Eingabedaten erstellt. Der Unterschied liegt in ihren jeweiligen Zwecken und, im Falle des KI-Trainings, in den zusätzlichen Schritten, die zur Erreichung dieses Zwecks unternommen werden.

Das Training ist der Ort, an dem das „Lernen“ im maschinellen Lernen stattfindet. Im Modelltraining trifft ein Machine-Learning-Modell Vorhersagen anhand einer Reihe von Trainingsdatenbeispielen. Beim überwachten Lernen berechnet eine Verlustfunktion den durchschnittlichen Fehler (oder „Verlust“) jeder Vorhersage, und ein Optimierungsalgorithmus wird verwendet, um die Modellparameter so zu aktualisieren, dass der Verlust reduziert wird. Dieser Prozess wird iterativ wiederholt, bis der Verlust auf ein akzeptables Niveau minimiert ist. Reinforcement Learning funktioniert ähnlich, allerdings mit dem Ziel, eine Belohnungsfunktion zu maximieren, anstatt eine Verlustfunktion zu minimieren.

Kurz gesagt, KI-Training beinhaltet in der Regel sowohl einen Vorwärtspass, bei dem das Modell als Reaktion auf jede Eingabe eine Ausgabe generiert, als auch einen Rückwärtspass, in dem potenzielle Verbesserungen der Modellparameter berechnet werden. Diese Parameter-Updates umfassen das „Wissen“ eines Modells für maschinelles Lernen.

Bei der KI-Inferenz macht das trainierte Modell dann Vorhersagen für reale Eingabedaten. Die KI-Inferenz nutzt das, was sie „gelernt“ hat – also die Aktualisierungen der Modellparameter, die vorgenommen wurden, um ihre Leistung bei den Trainingsdaten zu verbessern –, um die richtige Ausgabe für die neuen Eingabedaten abzuleiten. Im Gegensatz zum Modelltraining beinhaltet die Inferenz lediglich einen Vorwärtsdurchlauf.

Training und Inferenz sind zwar in der Regel separate, unterschiedliche Phasen, aber es ist erwähnenswert, dass sie sich nicht ganz gegenseitig ausschließen. Beispielsweise wurde der Empfehlungsalgorithmus einer Social-Media-Plattform bereits vor Ihrem Beitritt zur Plattform anhand großer Datensätze zum Nutzerverhalten trainiert und führt jedes Mal Schlussfolgerungen durch, wenn er Ihnen Inhaltsvorschläge unterbreitet. Aber dieses trainierte Modell wird auch kontinuierlich auf Ihr individuelles Verhalten abgestimmt und verfeinert seine Vorschläge basierend darauf, wie Sie persönlich mit Inhalten interagieren.

Arten der KI-Inferenz

„Typ“ ist ein schwammiger Begriff: Es gibt viele Möglichkeiten, KI-Inferenz durchzuführen, und daher auch viele Möglichkeiten, ihre Varianten abzugrenzen. Die beiden grundlegendsten Categories von KI-Strategie sind jedoch Batch-Inferenz und Online-Inferenz.

Online-Inferenz

In der Online-Inferenz verarbeitet ein trainiertes Modell die Eingabedaten sofort, eine Eingabe nach der anderen. Online-Inferenz ist für jedes KI-System geeignet, dessen Ausgaben zeitkritisch sind (wie autonome Fahrzeuge, digitale Werbeausschreibungen oder dynamische Preisgestaltung) oder die Live-Interaktionen mit Nutzern erfordern (wie Chatbot oder maschinelle Übersetzungen).

Online-Inferenz ist im Allgemeinen mit höheren Kosten und Komplexität verbunden – insbesondere bei hohen Workloads und den großen Neural Networks, die Deep Learning-Modelle antreiben –, aber sie ist oft notwendig für jeden realen Anwendungsfall, der eine Entscheidungsfindung in Echtzeit erfordert. Ein Chatbot oder ein selbstfahrendes Auto muss Daten in Echtzeit verarbeiten, um die Benutzererfahrung nicht zu beeinträchtigen. Das Dienstprogramm eines KI-Systems, das vorhersagt, ob einem bestimmten Antragsteller ein Kredit gewährt werden sollte, wird durch eine geringfügige Verzögerung zwischen Eingabe und Ausgabe kaum beeinträchtigt; bei einem autonomen Fahrzeug hingegen könnten bereits wenige Millisekunden Verzögerung die Sicherheit der Insassen gefährden.

Batch-Inferenz

Bei der Batch-Inferenz verarbeitet ein trainiertes Modell eine große Menge an Eingaben asynchron in Gruppen (oder „Batches“). Jede Batch-Verarbeitung wird in der Regel für einen bestimmten Zeitpunkt geplant: So kann ein Unternehmen beispielsweise die Batch-Inferenz nutzen, um nächtliche Berichte über alle Aktivitäten des jeweiligen Tages zu erstellen. Dies ermöglicht mehr Flexibilität und Effizienz und macht Batch-Inferenz zur kostengünstigeren Option. Dies ist jedoch nur in Situationen sinnvoll, in denen Aktualität nicht wichtig ist.

Batch-Inferenz ermöglicht auch eine effizientere Nutzung der Hardware. Beispielsweise enthalten GPUs viele Tausend Recheneinheiten (oder „Kerne“), von denen jede gleichzeitig parallele Berechnungen ausführen kann. Eine Inferenz für eine einzelne Eingabe durchzuführen, ohne alle diese Kerne zu nutzen, ist so, als würde man in einem Bus Sitzplätze frei lassen: In zeitkritischen Situationen mag dies zwar notwendig sein, stellt jedoch eine suboptimale Nutzung der Ressourcen dar. Bei der Batch-Inferenz können Sie die Inferenz erst dann ausführen, wenn Ihre Hardware sozusagen „voll“ ist.

Darüber hinaus müssen die Modellparameter – die bei Deep-Learning-Modellen oft buchstäblich Milliarden von Modellgewichten umfassen – bei jeder Inferenz in den Systemspeicher geladen werden. Dies hat Auswirkungen auf den Energieverbrauch und die Kosten. Durch die Batch-Inferenz wird die Anzahl der Ladevorgänge der Gewichte in den Arbeitsspeicher reduziert, wodurch sich der Aufwand auf den gesamten Batch verteilt.

Micro-Batching

Micro-Batching ist ein Mittelweg zwischen Online-Inferenz und Batch-Inferenz: Wie der Name schon sagt, werden dabei Inferenzvorgänge in kleinen Stapeln ausgeführt.

Es gibt keine eindeutige, quantifizierbare Losgröße, die „Micro-Batching“ von „Batching“ unterscheidet. Stattdessen unterscheiden sich die beiden Ansätze hauptsächlich durch ihre Ziele: Micro-Batching zielt darauf ab, den Modelldurchsatz zu erhöhen und gleichzeitig (meist) die Modellgeschwindigkeit zu erhalten, während konventionelle Batch-Inferenz die Effizienz maximieren will und die Latenz im Allgemeinen nicht berücksichtigt. Bei der Batch-Inferenz kann die Verarbeitung einer Eingabe Minuten oder sogar Stunden nach deren Empfang dauern – beim Micro-Batching hingegen wird in der Regel eine Verzögerung von maximal Millisekunden bis wenigen Sekunden angestrebt.

Vielleicht ist die bekannteste Anwendung von Micro-Batching die cloudbasierte LLM-Inferenz über große Plattformen wie Anthropics Claude oder OpenAIs ChatGPT. Wenn Tausende von Nutzern gleichzeitig Anfragen an einen Chatbot senden, verarbeiten diese Dienste in der Regel mehrere Anfragen parallel, wodurch die Effizienz gesteigert wird, ohne dass es für den einzelnen Endnutzer zu spürbaren Verzögerungen kommt.

KI-Inferenz-Umgebungen

Einer der wichtigsten Aspekte bei der Gestaltung eines KI-Ökosystems ist die Entscheidung, wo die Inferenz-Workloads tatsächlich ausgeführt werden sollen. Mit anderen Worten: Wo sich die Hardware befindet und wie Sie auf diese Hardware zugreifen können.

Bereitstellungsumgebungen lassen sich im Allgemeinen in vier Kategorien einteilen, von denen jede ihre eigenen Stärken und Nachteile aufweist.

  • On-Premises

  • Cloud

  • Bereitstellung von Edge

  • On-Device

On-Premises-Bereitstellung

Bei der lokalen Bereitstellung (oder „On-Prem“) werden KI-Modelle auf physischer Hardware ausgeführt, die Sie (oder Ihr Unternehmen) besitzen und selbst warten.

Die On-Prem-Bereitstellung bietet die größtmögliche Kontrolle über KI-Workload, da Sie selbst bestimmen können, wie und wann Daten verarbeitet und Rechenressourcen zugewiesen werden. Dies ist besonders vorteilhaft in stark regulierten Branchen wie dem Gesundheitswesen, dem Finanzwesen, der Regierung und dem Rechtswesen, wo die strikte Einhaltung der Anforderungen an Datenschutz und Datensicherheit zwingend vorgeschrieben ist.

Diese Kontrolle geht mit einem höheren Kosten- und Arbeitsaufwand einher. Die Bereitstellung vor Ort, insbesondere mit der für Workloads im Unternehmensmaßstab und die typischerweise mit generativer KI verbundenen massiven Modelle benötigten Hardware, erfordert erhebliche Vorabinvestitionen. Außerdem werden für die Verwaltung dieser Server spezielle IT-Experten benötigt.

Cloudbereitstellung

Bei der Cloud-Bereitstellung werden Modelle auf entfernten Servern betrieben, die von Drittanbietern (wie IBM) in großen Rechenzentren verwaltet werden. So kann ein Unternehmen leistungsstarke KI-Hardware nutzen, ohne dass hohe Vorabinvestitionen für den Kauf oder die laufende Wartung erforderlich sind. Daher stellt die Cloud-Bereitstellung in der Regel den schnellsten Weg zur Skalierbarkeit dar – insbesondere in Situationen, in denen Sie Ihre Rechenressourcen rasch aufstocken müssen, um einen plötzlichen Anstieg der Nachfrage zu bewältigen.

Diese Flexibilität und Skalierbarkeit geht jedoch mit Abstriche bei der Datenhoheit und in manchen Fällen auch bei der Latenz sowie den langfristigen Kosten einher. Daten können zu und von den Cloud-Servern übertragen werden, was sich nachteilig auf die Inferenzgeschwindigkeit auswirken kann (obwohl dies oft durch die leistungsfähigere Hardware, die in der Regel bei großen Cloud-Providern verfügbar ist, zunichte gemacht wird). Das führt auch zu theoretischen Komplikationen in Bezug auf die Datenherkunft, da Daten mehr Entitäten ausgesetzt sind als in On-Prem-Szenarien.

Bereitstellung von Edge

Edge-Bereitstellung bezeichnet die Nutzung von Ressourcen, die physisch nahe an der Datenquelle liegen, etwa über Internet der Dinge(IoT)-Geräte und lokalen Netzwerken.

Im weitesten Sinne kann Edge-Bereitstellung als etwas Ähnliches wie eine „On-Premise-Cloud“ verstanden werden. Besonders vorteilhaft ist es, wenn Daten von einer Reihe von Geräten – wie Sensoren in einer Fabrikfertigungslinie oder Überwachungsgeräten in einem Krankenhaus – aggregiert oder an diese verteilt werden müssen und nahezu in Echtzeit verarbeitet werden müssen. In solchen Szenarien ermöglicht das Ausführen von Inferenzen über Geräte an den „Edges“ eines lokalen Netzwerks eine schnellere Verarbeitung und einen größeren Datenschutz, als dies durch eine Cloud-Bereitstellung möglich wäre.

Diese Vorteile werden bis zu einem gewissen Grad durch die Tatsache gemindert, dass Edge-Computing in der Regel Hardware nutzt, die im Vergleich zu dem, was über Cloud-Provider verfügbar ist, relativ begrenzt ist. Und mit dem Wachstum lokaler Netzwerke wird die Verwaltung von Aktualisierungen über Hunderte oder Tausende von „Edge-Knoten“ hinweg zunehmend komplexer.

Bereitstellung auf dem Gerät

Die Bereitstellung direkt auf dem Gerät ist am einfachsten: Die KI-Inferenz läuft direkt auf dem Gerät des Endbenutzers, beispielsweise einem Laptop oder einem Smartphone.

Die Bereitstellung auf dem Gerät ist einfach und sicher und bietet theoretisch die größtmögliche Privatsphäre für den Benutzer. Dies ist natürlich durch die Rechenleistung des Geräts selbst begrenzt: Die in einem Smartphone oder sogar in einem leistungsstarken Consumer-Computer verfügbare Rechenleistung verblasst im Vergleich zu der von spezialisierter Hardware in der Regel. Insbesondere bei Smartphones beschränkt sich die Inferenz auf dem Gerät in der Regel auf bestimmte Aufgaben, wie beispielsweise Kamerafilter, Gesichtserkennung oder Speech-to-Text-Umwandlung.

AI Academy

KI-Experte werden

Erlangen Sie das nötige Wissen, um KI-Investitionen zu priorisieren, die das Unternehmenswachstum vorantreiben. Starten Sie noch heute mit unserer kostenlosen AI Academy und gestalten Sie die Zukunft der KI in Ihrem Unternehmen.

Hardware für KI-Inferenz

KI-Inferenz ist ein komplexer Prozess, bei dem ein KI-Modell anhand geeigneter Datensätze trainiert wird, bis es genaue Antworten ableiten kann. Dies ist ein äußerst rechenintensiver Prozess, der spezialisierte Hardware und Software erfordert. Bevor wir uns den Prozess des Trainierens von KI-Modellen für die KI-Inferenz ansehen, sollten wir einige der spezialisierten Hardwarekomponenten betrachten, die dies ermöglichen:

Grafikprozessoren (GPUs)

GPUs wurden, wie ihr Name schon sagt, ursprünglich für das Rendern von Grafiken (wie in Videospielen) entwickelt. Das Rendern von 3D-Grafiken, wie das Ausführen von Inferenz für tiefe Neural Networks, erfordert massive Matrixmultiplikationen – zum Beispiel, um die Wirkung von Licht und Textur auf Tausende von Pixeln gleichzeitig zu berechnen.

Die Möglichkeit, diese Parallelität für mathematische Berechnungen (anstelle von Grafikdarstellungen) zu nutzen, machte einen enormen Sprung nach vorne, als NVIDIA die Compute Unified Device Architecture (CUDA) einführte – eine Softwareplattform, eine API und ein Programmiermodell, die es Entwicklern ermöglicht, Code zu schreiben, der direkt auf den Tausenden von parallelen Kernen der GPU ausgeführt wird. Auch heute noch gelten GPUs als die branchenübliche Hardware für das Trainieren und Ausführen von Deep-Learning-Modellen.

Tensor Processing Units (TPUs)

TPUs sind Googles proprietäre, maßgeschneiderte Chips, die speziell für Neural Networks entwickelt wurden. Während GPUs flexible, universell einsetzbare Parallelprozessoren sind, sind TPUs ausschließlich für schnelle Matrixberechnungen ausgelegt. Obwohl sie weniger vielseitig sind als GPUs, bieten TPUs bei der Verarbeitung großer Mengen von Daten aus neuronalen Netzen eine höhere Geschwindigkeit und Energieeffizienz.

Neuronale Verarbeitungseinheiten (NPUs)

Neuronale Verarbeitungseinheiten (NPUs), wie TPUs, wurden explizit dafür entwickelt, die Berechnungen von Neural Networks zu verarbeiten. Sie kommen in der Regel in Smartphones und anderen Mobilgeräten zum Einsatz, da ihre stärker fokussierten Funktionen den Stromverbrauch im Vergleich zu GPUs senken.

Field-Programmable Gate Array

Feldprogrammierbare Gate-Arrays (FPGAs) sind eine Art konfigurierbarer integrierter Schaltkreise, die entsprechend den Anforderungen spezifischer Anwendungen, einschließlich Operationen im Bereich der künstlichen Intelligenz, programmiert (und neu programmiert) werden können. Obwohl sie in der Regel weniger Rechenleistung bieten als GPUs der Spitzenklasse, sind FPGAs von Vorteil, wenn eine extreme Anpassung erforderlich ist.

Anwendungsspezifische integrierte Schaltungen (ASICs)

ASICS kann im Gegensatz zu FPGAs nicht angepasst oder neu konfiguriert werden. Sie sind explizit darauf ausgelegt, eine einzige Aufgabe mit maximaler Effizienz zu erfüllen. Die TPUs von Google sind beispielsweise ASICs, die ausschließlich für die Durchführung von Neural Networks-Operationen über TensorFlow, PyTorch und JAX entwickelt wurden.

Verteilte KI-Inferenz

Die Trainings- oder Inferenzlasten eines großen generativen KI-Modells übersteigen oft selbst die Kapazität der größten Beschleunigerhardware. Wenn Ihre Workload für eine einzelne GPU zu groß ist, kann sie auf mehrere Prozessoren verteilt werden, wobei eine oder mehrere Parallelisierungstechniken verwendet werden, um die Arbeit zu teilen und zu verteilen. Es gibt viele Parallelitätsparadigmen, aber die bekanntesten sind Datenparallelität, Tensorparallelität und Pipelineparallelität.

Entwickler können oft Open-Source-Frameworks wie vLLM nutzen, um den Prozess der Verteilung von Inferenzen über mehrere Geräte zu optimieren und zu vereinfachen.

Datenparallelität

Bei der Datenparallelität wird eine Kopie des vollständigen Modells auf jeden Prozessor übertragen. Der Eingabedatensatz selbst wird dann in mehrere Chargen (oder „Shards“) aufgeteilt, und jede Instanz des Modells – also jeder Prozessor – verarbeitet eine einzelne Charge. Dies ist zwar vielleicht die einfachste Form der Parallelisierung, setzt jedoch voraus, dass jeder Prozessor über ausreichend Speicherplatz verfügt, um alle Parameter des Modells im Arbeitsspeicher unterzubringen. Bei größeren LLMs und Vision Language Models (VLMs) mit Dutzenden oder Hunderten von Milliarden Parametern ist dies jedoch selten möglich. In solchen Fällen müssen andere Parallelitätsparadigmen verwendet werden.

Pipeline-Parallelität

Bei der Pipeline-Parallelität werden verschiedene Schichten eines neuronalen Netzwerks verschiedenen GPUs zugewiesen. Beispielsweise könnte ein neuronales Netzwerk mit 12 Schichten auf 3 GPUs verteilt werden, wobei der ersten GPU die ersten 4 Schichten zugewiesen werden, die zweite GPU die mittleren 4 Schichten übernimmt und die dritte GPU die letzten 4 Schichten verarbeitet. Die Daten werden dann sequenziell verarbeitet: Die Ausgabe der ersten GPU wird an die zweite GPU weitergegeben, die Ausgabe der zweiten GPU an die dritte und die dritte GPU berechnet die endgültige Ausgabe des Modells.

Effizienter Pipeline-Parallelismus erfordert in der Regel Mini-Batching, so dass jeder GPU immer gleichzeitig Daten verarbeitet, anstatt untätig zu warten, bis er Daten vom vorherigen GPU in der Sequenz erhält. In unserem einfachen Beispiel aus dem vorigen Absatz könnte die erste GPU unmittelbar nach der Übergabe der Ausgabe des ersten Mini-Batches an die zweite GPU mit der Verarbeitung eines neuen Mini-Batches von Eingabedaten beginnen.

Natürlich benötigt ein System mit Pipeline-Parallelität eine gewisse Anlaufzeit, um die volle Geräteauslastung zu erreichen. In unserem Beispiel kann die zweite GPU erst wieder arbeiten, wenn sie Daten von der ersten empfängt; die dritte GPU kann erst wieder arbeiten, wenn die ersten beiden GPUs den kompletten Mini-Batch verarbeitet haben; die vierte GPU kann erst beginnen, wenn die dritte fertig ist.

Tensor-Parallelität

Bei sehr großen Modellen könnte selbst eine einzelne Schicht zu groß sein, um auf einen einzelnen Prozessor zu passen. Bei der Tensorparallelität werden die Schichten selbst unterteilt, wobei jeder Prozessor einen Teil des Tensors der Modellgewichte erhält. Die Vektor-Einbettung– also die Tensordarstellung – der Eingabedaten wird ebenfalls unterteilt, wobei jeder Prozessor eine entsprechende Teilmenge der Eingabedaten erhält.

Die Tensor-Parallelität reduziert die Speicheranforderungen auf jedem Gerät erheblich, da jeder Prozessor kleinere Tensoren in den Speicher laden muss als bei anderen Parallelitätsparadigmen. Dies geht mit einem gewissen Mehraufwand einher, da eine größere geräteinterne Kommunikation und mehr mathematische Schritte erforderlich sind, um die Ausgaben der einzelnen GPU miteinander zu verknüpfen.

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

  1. watsonx.ai erkunden
  2. Buchen Sie eine Live-Demo