21. Februar 2025
Während traditionelle Rechenzentren viele der gleichen Komponenten wie ein KI-Rechenzentrum enthalten, unterscheiden sich ihre Rechenleistung und andere IT-Infrastrukturfähigkeiten stark. Unternehmen, die Vorteile der KI-Technologie nutzen möchten, würden von einem Zugang zur erforderlichen KI-Infrastruktur profitieren.
Es gibt viele Wege zu diesem Zugang, und die meisten Unternehmen werden ihre eigenen KI-Rechenzentren nicht von Grund auf neu aufbauen müssen – ein gewaltiges Unterfangen. Optionen wie Hybrid Cloud und Colocation haben die Einstiegshürde gesenkt, sodass Unternehmen jeder Größe von den Vorteilen der KI profitieren können.
KI-Rechenzentren teilen viele Ähnlichkeiten mit traditionellen Rechenzentren. Sie enthalten jeweils Hardware wie Server, Speichersysteme und Netzwerkausrüstung. Die Betreiber beider Systeme müssen Dinge wie Sicherheit, Zuverlässigkeit, Verfügbarkeit und Energieeffizienz berücksichtigen.
Die Unterschiede zwischen diesen beiden Arten von Rechenzentren ergeben sich aus den außergewöhnlichen Anforderungen hochintensiver KI-Workloads. Im Gegensatz zu KI-Rechenzentren verfügen typische Rechenzentren über eine Infrastruktur, die mit KI-Workloads schnell überfordert wäre. KI-fähige Infrastrukturen sind speziell für die Cloud, KI und maschinelles Lernen konzipiert.
Herkömmliche Rechenzentren sind beispielsweise eher für zentrale Recheneinheiten (Central Processing Units, CPUs) ausgelegt und enthalten diese. KI-fähige Rechenzentren hingegen benötigen hochleistungsfähige Grafikprozessoren (Graphics Processing Units, GPUs) und die dazugehörige IT-Infrastruktur, wie fortschrittliche Speicher-, Netzwerk-, Energie- und Kühlungsfunktionen. Die schiere Anzahl der GPUs, die für KI-Anwendungsfälle erforderlich sind, erfordert oft auch viel mehr Platz.
„Hyperscale“ und „Colocation“ beschreiben zwei Arten von Rechenzentren, die von Unternehmen häufig für KI verwendet werden.
Hyperscale-Rechenzentren sind riesig, umfassen mindestens 5.000 Server und belegen mindestens 10.000 Quadratfuß physischen Raum. Sie bieten extreme Skalierbarkeit und sind für große Workloads (wie generative KI) ausgelegt. Sie werden weltweit von Cloud-Anbietern wie Amazon Web Services (AWS), Microsoft Azure und Google Cloud Platform (GCP) für verschiedene Zwecke genutzt, darunter künstliche Intelligenz, Automatisierung, Datenanalyse, Datenspeicherung, Datenverarbeitung und mehr.
Ein Colocation-Rechenzentrum bezieht sich auf eine Situation, in der ein Unternehmen ein Hyperscale-Rechenzentrum besitzt und dessen Einrichtungen, Server und Bandbreite an andere Unternehmen vermietet.
Auf diese Weise können Unternehmen die Vorteile von Hyperscale nutzen, ohne große Investitionen tätigen zu müssen. Zu den weltweit größten Nutzern von Colocation-Services gehören Amazon (AWS), Google und Microsoft. Diese Cloud-Service-Anbieter mieten zum Beispiel große Rechenzentrumsflächen von einem Rechenzentrumsbetreiber namens Equinix. Dann stellen sie ihren neu erworbenen Speicherplatz den Kunden zur Verfügung, indem sie ihn an andere Unternehmen vermieten.
In einem Blogbeitrag Anfang 2025 nannte Microsoft die KI die „Elektrizität unseres Zeitalters“. Es bleibt abzuwarten, ob diese Erklärung übertrieben oder treffend ist. Die Akzeptanz von KI-Tools wie ChatGPT von OpenAI durch Millionen von Anwendern, die keine Experten sind, hat sich jedoch in rasantem Tempo entwickelt. Dieses eindeutige Produktivitäts- und Monetarisierungspotenzial von KI-Fähigkeiten hat zu einem intensiven Strom neuer KI-Produktivitätswerkzeuge, Agenten und Inhaltsgeneratoren geführt.
Open-Source-Modelle und die fortschreitende Demokratisierung der KI bedeuten, dass nicht nur die großen Akteure im KI-Ökosystem für Aufsehen sorgen. Nahezu jedes Unternehmen kann ein Technologieunternehmen sein, wenn es einen KI-Anwendungsfall erkennt und die nötige IT-Infrastruktur für dessen Umsetzung bereitstellt. Laut einem Bericht des IBM Institute for Business Value (IBM IBV) aus dem Jahr 2024 geben 43 % der Führungskräfte aus dem Technologiebereich an, dass ihre Besorgnis über ihre technologische Infrastruktur in den letzten sechs Monaten aufgrund der generativen KI zugenommen hat und sie sich nun auf die Optimierung ihrer Infrastruktur für deren Skalierung konzentrieren.
In der Zwischenzeit ist die Rechenzentrumsbranche gewachsen, um der Nachfrage gerecht zu werden. Die Infrastruktur von Rechenzentren rund um den Globus ist zunehmend KI-fähig und kann große Mengen komplizierter Berechnungen und Anfragen verarbeiten. Derzeit gibt es in der asiatisch-pazifischen und nordamerikanischen Region die meisten Rechenzentren, insbesondere in Gebieten wie Peking, Shanghai, Nord-Virginia und der San Francisco Bay Area.1
Erhebliche Investitionen von Big Tech haben auch Wachstum für den Sektor der KI-Rechenzentren signalisiert. Im Jahr 2025 will Microsoft rund 80 Mrd. USD in den Bau von Rechenzentren investieren und Meta investiert 10 Mrd. USD in ein neues, vier Millionen Quadratfuß großen Rechenzentrum im US-Bundesstaat Louisiana.
Es gibt mehrere einzigartige Merkmale und Funktionen, die für KI-fähige Rechenzentren entscheidend sind:
Ein KI-fähiges Rechenzentrum benötigt High-Performance-Computing-Funktionen (HPC), wie sie in KI-Beschleunigern zu finden sind. KI-Beschleuniger sind KI-Chips, die zur Beschleunigung von ML und Deep Learning (DL) Modellen verwendet werden, Verarbeitung natürlicher Sprache und andere Künstliche Intelligenz-Operationen. Sie gelten weithin als die Hardware, die KI und ihre zahlreichen Anwendungen erst möglich macht
GPUs zum Beispiel sind eine Art von KI-Beschleuniger. Die von Nvidia entwickelten GPUs sind elektronische Schaltkreise, die komplizierte Probleme in kleinere Teile zerlegen, die gleichzeitig gelöst werden können. Diese Methode ist als Parallelverarbeitung bekannt. HPC verwendet eine Art der parallelen Verarbeitung, die als massiv parallele Verarbeitung bekannt ist und Zehntausende bis Millionen von Prozessoren oder Prozessorkernen einsetzt. Diese Fähigkeit macht GPUs unglaublich schnell und effizient. KI-Modelle werden auf Rechenzentrums-GPUs trainiert und ausgeführt und treiben viele führende KI-Anwendungen an.
KI-fähige Rechenzentren umfassen zunehmend auch spezialisiertere KI-Beschleuniger wie eine Neural Processing Unit (NPU) und Tensor Processing Units (TPUs). NPUs ahmen die neuronalen Pfade des menschlichen Gehirns nach und ermöglichen so eine bessere Verarbeitung von KI-Workloads in Echtzeit. TPUs sind Beschleuniger, die speziell für die Beschleunigung von Tensorberechnungen in KI-Workloads entwickelt wurden. Ihr hoher Durchsatz und ihre geringe Latenz machen sie ideal für viele KI- und Deep-Learning- Anwendungen.
Die Geschwindigkeit und die hohen Rechenanforderungen von KI-Workloads erfordern einen großen Datenspeicher mit Hochgeschwindigkeitsspeicher. Solid-State-Drives (SSDs) – Halbleiter-basierte Speichergeräte, die in der Regel NAND Flash-Speicher verwenden – gelten als wichtige Speichergeräte für KI-Rechenzentren. Insbesondere NVMe SSDs, die über die Geschwindigkeit, Programmierbarkeit und Kapazität für die parallele Verarbeitung verfügen.
Rechenzentrums-GPUs, Beschleuniger und einige SSDs verwenden auch High-Bandwidth Memory (HBM). Diese Art von Speicherarchitektur ermöglicht eine leistungsstarke Datenübertragung bei geringerem Stromverbrauch als dynamischer Direktzugriffsspeicher (DRAM), eine traditionellere Speicherarchitektur.
Ein weiterer typischer Aspekt des Designs von KI-Rechenzentren ist eine Datenspeicherarchitektur, die Schwankungen in der Datennachfrage ausgleichen kann, z. B. unerwartete Stromstöße. Anstatt Workloads auf dedizierter Hardware auszuführen, verwenden viele Rechenzentren (sowohl KI als auch konventionelle) eine Cloud-Architektur, bei der physischer Speicher virtualisiert wird.
Virtualisierung ist die Aufteilung der Hardwarekomponenten eines einzelnen Computers (z. B. Arbeitsspeicher und Storage) in mehrere Virtual Machines. Sie ermöglicht eine bessere Ressourcennutzung und Flexibilität, da Benutzer mehrere Anwendungen und Betriebssysteme auf der gleichen physischen Hardware ausführen können.
Virtualisierung ist auch die Technologie, die Funktionen der Hybrid Cloud vorantreibt. Die Hybrid Cloud bietet Unternehmen mehr Agilität und Flexibilität, um Cloud und lokale Umgebungen miteinander zu verbinden, was für die Einführung datenintensiver generativer KI entscheidend ist.
Die KI muss schnell sein. Die Nutzer erwarten sofortige Antworten von Online-KI-Anwendungen und autonome Fahrzeuge müssen auf der Straße Entscheidungen in Sekundenbruchteilen treffen. Daher müssen KI-Rechenzentrumsnetzwerke in der Lage sein, die hohen Bandbreitenanforderungen von KI-Workloads mit geringer Latenz zu unterstützen. Für Hyperscale-Rechenzentren können die Bandbreitenanforderungen zwischen mehreren Gigabit pro Sekunde (Gbit/s) und Terabit pro Sekunde (Tbit/s) liegen.
Herkömmliche Rechenzentren verwenden Glasfaserkabel für ihre externen Kommunikationsnetzwerke, aber die Racks in den Rechenzentren kommunizieren immer noch überwiegend über kupferbasierte Stromleitungen. Copackaged Optics, ein neues Verfahren von IBM Research, verspricht, die Energieeffizienz zu verbessern und die Bandbreite zu erhöhen, indem optische Verbindungen in Geräte und in die Wände von Rechenzentren gebracht werden, die für das Training und die Bereitstellung großer Sprachmodelle (LLMs) verwendet werden. Diese Innovation könnte die Bandbreite der Kommunikation im Rechenzentrum deutlich erhöhen und die KI-Verarbeitung beschleunigen.
Fast alle modernen Rechenzentren nutzen virtualisierte Netzwerkdienste. Diese Fähigkeit ermöglicht die Erstellung von softwaredefinierten Overlay-Netzwerken, die auf der physischen Infrastruktur des Netzwerks aufbauen. Dies ermöglicht die Optimierung von Rechenleistung, Speicher und Netzwerken für jede Anwendung und Arbeitslast, ohne dass physische Änderungen an der Infrastruktur vorgenommen werden müssen.
KI-Rechenzentren erfordern eine hochmoderne Netzwerkvirtualisierungstechnologie mit besserer Vernetzung, Skalierbarkeit und Leistung. Sie muss auch in der Lage sein, Datenschutz- und Sicherheitsbedenken im Zusammenhang mit den großen Datenmengen, die zum Trainieren generativer KI-Modelle verwendet werden, zu berücksichtigen. In einer IBM IBV-Umfrage gaben 57 % der CEOs an, dass Bedenken hinsichtlich der Datensicherheit ein Hindernis für die Einführung generativer KI darstellen.
Die hohe Rechenleistung, die fortschrittlichen Netzwerke und die riesigen Speichersysteme in KI-Rechenzentren erfordern enorme Mengen an elektrischer Energie und fortschrittliche Kühlsysteme, um Ausfälle, Ausfallzeiten und Überlastungen zu vermeiden. Goldman Sachs geht davon aus,, dass die KI den Strombedarf von Rechenzentren bis 2030 um 165 % erhöhen wird. Und die Analyse von McKinsey legt nahe, dass die jährliche weltweite Nachfrage nach Rechenzentrumskapazität 171 bis 219 Gigawatt (GW) erreichen könnte. Der aktuelle Bedarf liegt bei 60 GW.
Um diesen hohen Anforderungen an Energieverbrauch und Kühlung gerecht zu werden, verwenden einige KI-Rechenzentren eine Einrichtung mit hoher Speicherdichte. Diese Strategie maximiert die Fläche des Rechenzentrums mit kompakten Serverkonfigurationen, die besser funktionieren, energieeffizienter sind und fortschrittliche Kühlsysteme enthalten.
Bei der Flüssigkeitskühlung wird zum Beispiel häufig Wasser statt Luft zur Wärmeübertragung und -ableitung verwendet. Sie bietet eine größere Effizienz bei der Handhabung von Wärme mit hoher Dichte und eine verbesserte Stromverbrauchseffektivität (PuE) – eine Kennzahl zur Messung der Energieeffizienz von Rechenzentren. Bei einer anderen Kühlmethode, der Einschließung von Warm- und/oder Kaltgängen, werden die Serverschränke so organisiert, dass der Luftstrom optimiert und die Vermischung von heißer und kalter Luft minimiert wird.
Angesichts dieses erheblichen Energiebedarfs suchen die Unternehmen von heute oft nach einem Gleichgewicht zwischen ihren KI-Ambitionen und ihren Nachhaltigkeitszielen. Ein beeindruckendes Beispiel kommt von Apple, einem der weltweit führenden Betreiber von Hyperscale-Rechenzentren. Seit 2014 werden alle Rechenzentren von Apple vollständig mit erneuerbarer Energie durch verschiedene Kombinationen von Biogas-Brennstoffzellen betrieben, Wasserkraft, Solarenergie und Windenergie.
Andere suchen nach extraterrestrischen Energiequellen und hoffen, die hochintensive Sonnenenergie im Weltraum für den Bau neuer Rechenzentren nutzen zu können. Durchbrüche bei orbitalen Rechenzentren könnten die Energiekosten für das Training von KI-Modellen erheblich senken und so die Stromkosten um bis zu 95 % reduzieren.
Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
1 „AI to drive 165% increase in data center power demand by 2030“, Goldman Sachs, 4. Februar 2025.