Le cloud peut donner l’impression que, si vous disposez d’un budget suffisant, vous avez une puissance informatique infinie à votre disposition. Cependant, cette puissance est divisée en plusieurs segments. Les hôtes (physiques et virtuels), les conteneurs et les fonctions sont tous assortis de limites quant à la quantité de mémoire allouée.

Sous Linux, l’OOM Killer est un processus chargé d’empêcher les autres processus d’épuiser collectivement la mémoire de l’hôte. Lorsqu’un processus tente d’allouer plus de mémoire que la capacité disponible, le processus qui a le score de badness global le plus élevé (basé, par exemple, sur la quantité de mémoire allouée au-delà de la quantité autorisée) reçoit un signal OOM. Ce signal signifie essentiellement : « Vous dépassez les limites. Arrêtez-vous ou arrêtez certains de vos processus enfants, sinon c’est la fin. »

Notez que le processus qui déclenche l’OOM n’est pas forcément le processus qui recevra en fin de compte le signal. Une application qui n’a pas augmenté sa consommation de mémoire récemment pourrait soudainement recevoir un signal OOM en raison du démarrage d’un trop grand nombre d’autres applications sur le même hôte.

La mécanique d’un signal OOM peut sembler brutale, mais elle constitue en fait un mécanisme très efficace pour empêcher l’épuisement de la mémoire sur les hôtes, en particulier dans le cas d’applications mal dimensionnées ou d’un trop grand nombre d’applications exécutées en parallèle (c’est-à-dire que les hôtes ne sont pas dimensionnés correctement par rapport à la workload).

Pour les plateformes conteneurisées telles que Kubernetes, Cloud Foundry et Nomad, l’utilisation de la mémoire est encore plus importante : à la fois en ce qui concerne le dimensionnement approprié des applications, et le nombre d’applications qui s’exécutent simultanément sur un hôte. En général, vous ne planifiez pas en détail les applications qui s’exécutent sur un nœud donné. Dans de nombreuses configurations, les conteneurs sont alloués selon une certaine logique par l’orchestrateur. L’application d’une règle de consommation de mémoire maximale est essentielle pour les conteneurs et les groupes de contrôle (cgroups), la base de la quasi-totalité des technologies de conteneurs sous Linux. Ces plateformes utilisent également le système OOM Killer pour s’assurer que les processus exécutés dans le même groupe (c’est-à-dire un conteneur) n’allouent pas plus de mémoire que la quantité autorisée. Lorsque les processus de vos conteneurs essaient d’allouer plus de mémoire qu’il n’est permis, certains sont interrompus, emportant souvent leurs conteneurs dans leur chute.

Tout est plus complexe à grande échelle, y compris le dimensionnement. Plus vous exécutez de conteneurs dans vos environnements, plus il est difficile de comprendre quand, comment et pourquoi certains d’entre eux tombent en panne. L’OOM Killer peut provoquer des situations problématiques pour vos applications, à savoir une défaillance permanente, suivie d’un redémarrage, ce qui engendre un volume continu d’erreurs pour vos utilisateurs finaux, qui faussent vos objectifs de niveau de service (SLO) et sont très difficiles à dépanner.