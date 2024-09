サイト信頼性エンジニアリング(SRE)では、ソフトウェア・エンジニアリングを使用することで、他の方法ではシステム管理者(sysadmins)が手動で行っているIT運用作業(実動システム管理、変更管理、インシデント対応、緊急対応など)を自動化します。

SREの背後にある原則は、ソフトウェア・コードを使用して大規模なソフトウェア・システム監視を自動化することが、手動操作による介入よりも拡張性が高く持続可能な戦略であるということです(特に、このようなシステムがクラウドに拡張または移行される場合)。

SREはまた、新規ソフトウェアや更新を継続的に実動へリリースしたい開発チームと、動作の停止やその他運用上の問題が絶対に起こらないという確信がない限りはどんなタイプの更新や新規ソフトウェアもリリースしたくない運用チームとの間に、当然起こりうる軋轢の大部分を減らす、あるいはなくすことも可能です。結果として、DevOpsに絶対に必要というわけではありませんが、SREはDevOps原則に密接に合致し、DevOpsの成功において重要な役割を担います。

SREという概念は、GoogleのVPoEであるBen Treynor Sloss氏によるもので、「SREは、ソフトウェア・エンジニアに運用チームの設計を依頼した時にできあがるものです。(SRE is what happens when you ask a software engineer to design an operations team.)」という説明がよく知られています。