Site Reliability Engineering (SRE)について

Googleが提唱し始めたSite Reliability Engineering (SRE)という考え方が最近注目されるようになってきています。もともと、Googleの運用部隊を率いているBen Treynorが始めた考え方でしたが、これまで明確な定義がなくいろんな人がいろんな言い方をしていたのですが、今年オライリーから「Site Reliability Engineering - How Google Runs Production Systems」という公式な書籍が出版されましたので、紹介資料を作ってみました。

昨日開催された、July Tech Festa 2016Site Reliability Engineering (SRE)で拡がる運用の世界 - Googleでの展開から、エンタープライズへの夢は見れるかとして講演した資料です。

内容をかいつまんでご紹介すると、GoogleでのSREとは、製品開発チームと人材を共有し、サービスの信頼性を上げるためのあらゆる方法を開発している組織であり、単なるDevOpsだけにとどまらない内容です。もちろんGoogleのサービスを支えるシステムは、世界最大級の分散処理システムであり、かつソフトウエアからハードウェアやデータセンター、ネットワークに至るまでほとんど独自開発のものを使用している特異な環境ですが、普通のエンタープライズIT環境にも通じる考え方があるのではないかと思っています。

 

元ネタのオライリー本は残念ながら英語版だけで500ページ以上の大部ですが、インフラ関係者には一読をお勧めします。