Site Reliability Engineering (SRE)について

Googleが提唱し始めたSite Reliability Engineering (SRE)という考え方が最近注目されるようになってきています。もともと、Googleの運用部隊を率いているBen Treynorが始めた考え方でしたが、これまで明確な定義がなくいろんな人がいろんな言い方をしていたのですが、今年オライリーから「Site Reliability Engineering - How Google Runs Production Systems」という公式な書籍が出版されましたので、紹介資料を作ってみました。

昨日開催された、July Tech Festa 2016Site Reliability Engineering (SRE)で拡がる運用の世界 - Googleでの展開から、エンタープライズへの夢は見れるかとして講演した資料です。

内容をかいつまんでご紹介すると、GoogleでのSREとは、製品開発チームと人材を共有し、サービスの信頼性を上げるためのあらゆる方法を開発している組織であり、単なるDevOpsだけにとどまらない内容です。もちろんGoogleのサービスを支えるシステムは、世界最大級の分散処理システムであり、かつソフトウエアからハードウェアやデータセンター、ネットワークに至るまでほとんど独自開発のものを使用している特異な環境ですが、普通のエンタープライズIT環境にも通じる考え方があるのではないかと思っています。

 

元ネタのオライリー本は残念ながら英語版だけで500ページ以上の大部ですが、インフラ関係者には一読をお勧めします。

OpenPIEを公開しました

 

データセンター向け運用管理自動化基盤として弊社が開発した、OpenPIEのソースコードをGithubに公開しました。インストール方法や使用方法も掲載していますので、ぜひお試しください。https://github.com/oss-laboratries/OpenPIE

OpenPIE (Open Programmable Infrastructure Environment)とは、オープンソースのクラウド/データセンター運用自動化基盤です。 ポータル、システム監視、構成管理、ジョブ管理、チケット管理などの様々なツールを組み合わせて、自動連携することを可能にするツールチェーンです。 構成コンポーネントはAPIによる疎結合構造になっていますので、必要な機能だけ選んで使用できます。対象とするシステムは、VrirtualBox、AWSなどのパブリッククラウドから、オンプレミスのVMware、OpenStack環境まで対応予定です。OpenPIEの目的は運用自動化そのものではなく、すべてのオペレーション、機器情報や障害対応を記録し、情報共有・分析によるSRE (Site Reliability Engineering)を可能にすることです。