Harvard-Forscher lösten mit Hilfe von IBM Infrastrukturbeschränkungen
An der Spitze der verantwortungsvollen KI-Forschung befasste sich das Calmon Lab an der Harvard John A. Paulson School of Engineering and Applied Sciences mit einer der drängendsten Herausforderungen im Bereich der KI. Sie versuchten, große Sprachmodelle (LLMs) mit menschlichen Werten und Sicherheitsstandards in Einklang zu bringen. Ihre Arbeit konzentrierte sich auf die Verbesserung der Leistung der Gedankenkette (Chain-of-Thinking, CoT) in häufig verwendeten Modellen wie DeepSeek-R1 und Llama durch die Anwendung von Methoden zur Ausrichtung der Inferenzzeit.
Ihr Fortschritt wurde jedoch durch Einschränkungen der Infrastruktur behindert. Der Harvard-Cluster war mit der Nachfrage überfordert, und für den Betrieb modernster Modelle war der Zugriff auf mehrere NVIDIA H100-GPUs erforderlich. Diese Verzögerungen schränkten ihre Fähigkeit, effizient mit großen Modellen zu experimentieren, erheblich ein und verlangsamten das Gesamttempo ihrer Forschung.
Führen Sie Inferenzen mit Geschwindigkeiten von mehr als 2.000 Token pro Sekunde aus
Trainieren und implementieren Sie LLMs ohne Wartezeiten
Um diese Infrastrukturbeschränkungen zu überwinden, schloss das Calmon Lab eine Partnerschaft mit IBM. Mithilfe von IBM Cloud stellten sie zwei NVIDIA HGX H100 8-GPU-Server in einer gesicherten Virtual Private Cloud (VPC) bereit, wobei jeder Server mit 640 GB GPU-Speicher und 2 TB physischem Speicher ausgestattet war. Das Setup beinhaltete Block Storage mit hohen Eingabe/Ausgabe-Operationen pro Sekunde (IOPS), schnelles Netzwerk-Dateifreigabe und IBM Cloud Object Storage für eine nahtlose Datenübertragung.
Mit Red Hat Enterprise Linux 9, der Anaconda-Plattform und Virtual Large Language Model (vLLM) für die Modellbereitstellung konnte das Labor schnell auf eine Umgebung mit hoher Leistung umgestellt werden. Innerhalb einer Woche führte das Team Inferenz mit über 2.000 Token pro Sekunde durch und trainierte Modelle ohne Verzögerungen. Diese Transformation ermöglichte es ihnen, neue Grenzen in der KI-Sicherheit zu erkunden, einschließlich der Identifizierung unproduktiver Argumentationspfade und der Verfeinerung von Modellabgleichstechniken.
Nach der Transformation verzeichnete das Calmon Lab eine erhebliche Verbesserung der Forschungsgeschwindigkeit, die durch den Zugriff auf eine zuverlässige und benutzerfreundliche GPU-Infrastruktur in der IBM Cloud ermöglicht wurde. Folgendes wurde dadurch ermöglicht:
IBM unterstützt weiterhin die Mission des Labors, indem es eine skalierbare, sichere und leistungsstarke Infrastruktur bereitstellt, die es Forschern ermöglicht, die Grenzen vertrauenswürdiger KI zu erweitern.
Harvard in Cambridge, Massachusetts, ist eine renommierte Ivy League-Universität, die 1636 gegründet wurde. Sie sind bekannt für ihre akademische Exzellenz und ihre umfangreichen Beiträge zu verschiedenen Bereichen, einschließlich Bildung, Forschung und Kultur. Harvard bedient eine vielfältige Studentenschaft und bietet eine breite Palette von Programmen an ihren 12 Hochschulen an. Diese angesehene Universität wird regelmäßig zu den besten Universitäten weltweit gezählt, was ihren bedeutenden Einfluss und ihre Ressourcen widerspiegelt.
© Copyright IBM Corporation 2025. IBM, das IBM-Logo, Granite, watsonx.ai, watsonx.data watsonx.governance und watsonx Orchestrate sind Marken der IBM Corporation in den USA und/oder anderen Ländern.
Die Beispiele dienen nur zur Veranschaulichung. Die tatsächlichen Ergebnisse variieren je nach Kundenkonfiguration und -bedingungen. Daher können keine allgemein erwarteten Ergebnisse bereitgestellt werden.