Die Cloud mag den Anschein erwecken, als stünde Ihnen bei ausreichendem Budget unendlich viel Rechenleistung zur Verfügung. Diese Rechenleistung ist jedoch nur in Teilen verfügbar. Hosts (physisch und virtuell), Container und Funktionen – sie alle haben Beschränkungen bei der Zuweisung von Speicherplatz.

Unter Linux ist der OOM-Killer (Out-of-Memory) ein Prozess, der dafür verantwortlich ist, dass andere Prozesse nicht den gesamten Speicher des Hosts ausschöpfen. Wenn ein Prozess versucht, mehr Speicher zuzuweisen, als verfügbar ist, erhält der Prozess mit dem insgesamt höchsten Badness-Score, der sich z. B. danach richtet, wie viel Speicher er über das zulässige Maß hinaus zuweist, ein OOM-Signal. Das bedeutet im Grunde genommen: „Sie liegen völlig daneben. Beenden Sie den Prozess oder bringen Sie einige der untergeordneten Prozesse zum Beenden, oder die Lichter gehen aus.“

Beachten Sie, dass der Prozess, der das OOM auslöst, möglicherweise nicht der Prozess ist, der das OOM-Signal empfängt. Eine Anwendung, die in letzter Zeit ihre Speichernutzung nicht erhöht hat, erhält plötzlich ein OOM-Signal, weil zu viele andere Anwendungen auf demselben Host gestartet wurden.

Die Mechanik eines OOM-Signals klingt hart, ist jedoch ein sehr effektiver Mechanismus zur Vermeidung einer Speichererschöpfung auf Hosts, insbesondere bei Anwendungen, die nicht korrekt dimensioniert sind, oder bei zu vielen parallel laufenden Anwendungen (d. h. die Hosts sind nicht korrekt für die Workload dimensioniert).

Für containerbasierte Plattformen wie Kubernetes, Cloud Foundry und Nomad ist die Nutzung des Arbeitsspeichers – sowohl im Hinblick auf die angemessene Dimensionierung von Anwendungen als auch im Hinblick darauf, wie viele Anwendungen gleichzeitig auf einem Host ausgeführt werden sollen – noch wichtiger. Im Allgemeinen plant man nicht im Detail, welche Anwendungen auf einem bestimmten Knoten ausgeführt werden. In vielen Konfigurationen werden Container vom Orchestrator nach einer bestimmten Logik zugewiesen. Die Durchsetzung eines maximalen Speicherverbrauchs ist für Container und Kontrollgruppen (cgroups), die Grundlage praktisch jeder Containertechnologie unter Linux, von entscheidender Bedeutung. Diese verwenden auch das OOM-Killersystem, um sicherzustellen, dass Prozesse, die in derselben Gruppe (d. h. einem Container) ausgeführt werden, nicht mehr Speicher zuweisen, als sie dürfen. Wenn die Prozesse in Ihren Containern versuchen, mehr Arbeitsspeicher zuzuweisen, als sie dürfen, werden einige von ihnen beendet, was oft auch ihre Container zum Absturz bringt.

In großem Maßstab ist alles schwieriger, auch die Größenanpassung. Je mehr Container Sie in Ihren Umgebungen ausführen, desto schwieriger ist es zu verstehen, wann, wie und warum einige von ihnen ausfallen. OOM-Killer können ungesunde Situationen für Ihre Anwendungen schaffen, in denen ständig irgendwo etwas abstürzt und dann neu gestartet wird. Dadurch entstehen für Ihre Endbenutzer kontinuierlich viele Fehler, die Ihre SLOs (Service Level Objectives) verzerren und sehr schwer zu beheben sind.