blogの更新をさぼっているうちに、最近Hadoop界隈の動きが激しくなってきて立て続けに下記のような発表がありました。
4/28「西鉄ストア、Hadoopで会計システムを刷新」日経コンピュータ 4/28号 HOT NEWS
西鉄ストアが、オープンソースの分散バッチ処理ソフト「Hadoop」を使って会計システムを刷新、9月末に本格稼働させる。ウルシステムズが開発し、パッケージとして販売する計画。
5/9「EMC、Apache HadoopベースのBIソフトとアプライアンスを発表」
米国EMCはユーザー・カンファレンス「EMC WORLD 2011」で、大量のデータに対応するオープンソース分散処理フレームワーク「Apache Hadoop」をベースにしたビジネス・インテリジェンス(BI)ソフトウェア「EMC Greenplum HD Community Edition」、「同 Enterprise Edition」、さらに構造化/非構造化データに基づくビジネス分析専用のHadoopアプライアンス「Greenplum HD Data Computing Appliance」も発表した。いずれも2011年第3四半期のリリース予定。
5/10「グーグル、フル機能のMapReduceをGoogle App Engineで提供へ」
Google 5/10 グーグルは同社のクラウドサービスであるGoogle App Engineで、フル機能のMapReduce機能を提供することが同社のイベントGoogle I/O 2011で明らかにした。
5/23『日本IBM、Hadoopベースの大規模データ向け処理ソフトを投入」
日本IBMは大規模データ向けの処理ソフト「IBM InfoSphere BigInsights Enterprise Edition V1.1」を5月27日に出荷すると発表した。BigInsightsは、オープンソースの分散バッチ処理ソフト「Hadoop」をベースに、IBMが使 い勝手を高めた製品。同時に、大量データをリアルタイムに処理するソフトの新版「IBM InfoSphere Streams V2.0」を5月24日に出荷開始すると発表した。
5/25「ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ」
Asakusaの開発チームとMonkey Magicの開発チームが、EC-Oneから社名変更したノーチラス・テクノロジーズに集結する。EC-Oneの最首英裕社長は、「分散システムに特化した、国内でもトップクラスの開発チームを作る」と述べている。
5/30「NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始」
NTTデータはオープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」の商用ディストリビューション 「Cloudera's Distribution including Apache Hadoop v3(CDH3)」の販売を、6月2日に開始すると発表した。価格は1ノード当たり年額25万円からで、5ノードから販売する。
また、6/10に同社とCloudera社の共催で開催された「Hadoopエンタープライズソリューションセミナー」では、KDDI導入事例や、金融機関でのCF/PV計算へのHadoopを適用しデータ量が大きくなくても(100GB程度)Hadoopを使用するメリットがあった事例など、今後のHadoopの基幹業務への適用がますます増えて行く予感を感じませました。
弊社でもHadoopやAsakusaに積極的に取り組んでおり、お客様からのご相談が多くなってきた事を実感しています。今年がHadoopが基幹業務に広く使われ始める元年になるのは間違いないでしょう。
企業にとって、開発したソフトウェアをオープンソース化するメリットは何処にあるでしょうか?例えば、米国Yahoo!は、過去5年間にわたって分散処理基盤ソフトのHadoopの開発に100人以上の技術者が携わり、累計300人年を投資しています。Hadoopの元となったGoogleのBigTableはオープンソースにしていないのに、Yahoo!がHadoopの開発を始めた時、彼らはなぜオープンソース化を選択したのでしょうか?30億円の投資に見合ったリターンはあったのでしょうか?
HadoopはApache Luceneの派生プロジェクトから始まったためオープンソース化を選択したのは自然だとも言えますが、Yahoo!の社内システムとして開発するものはクローズドにする選択肢もあったはずです。実際日本の多くの企業では未だにオープンソースを使ってもコードを公開しないでいるところが殆どでしょう。
米国Yahoo! Developer Networkのblogにその答えが掲載されていたので、簡単に紹介したいと思います。
「明白なのは、Hadoopの元となったソフトウェアがYahoo!の最大の競合であるGoogleが開発した物であり、この技術によって競争上アドバンテージを得られる物ではないということです。そしてYahoo!はクローズドな開発ではなくオープンソース化する事によって、以下のようなメリットを期待し、いくつかは期待以上の物をもたらしました。中でも全く予想外だったのは、MicrosoftやGoogleがHadoopを使い始めた事です。
1.ワールドクラス技術者(原文はScientist、つまり単なる開発者ではなくコンピュータ科学の博士号をもった技術者でしょうか)の獲得:雇いたいと思う優秀なHadoop技術者は、Yahoo!にビッグデータプラットフォームがある事を知っています。今日Yahoo!では4万台以上のサーバー(>30万コア)でHadoopが稼働しており、千人以上のユーザーが、検索・広告・スパム検知・パーソナライゼーションなどの研究に使用しています。これらは多くの売上増加をもたらす商品開発のキーとなっています。
2.オープンソースの厳正な開発プロセスによって、より良いコードとツールのエコシステムを生み出す:開発コミュニティの拡大によって、自社内で開発できなかったHBaseやHiveなどのツールが使えるようになり、ビッグデータ分析と管理のオープンスタンダードとなりました。
3.容易なHadoop開発者へのアクセスと協同:今では日常的にHadoop経験者を採用しており、また多くのパートナーはHadoopを使用しています。先日Yahoo!はHadoop技術ベースのスタートアップ企業(dappers.net)を買収しましたが、これはオープン戦略が正しかった証左とも言えるでしょう。
4.陳腐化の回避:クロースドな開発をして、いつ新たなスタンダードに乗り換えるのか考えるより、Hadoopがスタンダードになる事を見守っているだけです。Yahoo!が投資しなくても、IBMやAmazonなど主なエンタープライズプレイヤーがHadoopをサポートしており、様々なツールが提供されています。
5.正しい行為による信用:毎年開催しているHadoop Summitや各地で開催されているHUG (Hadoop User Group)の参加者数、またPowered by Hadoopページに掲載されるユーザー数などの急増をみると、既にHadoopはあらゆるところで想像もしていなかった形で使われ始めている事が分かります。」
興味深いのは、このblogを書いているプロジェクトを率いたソフトウェアエンジニアリング責任者のEric Baldeschwielerは、2006 年にYahoo!に買収された検索エンジン開発のInktomiの技術リーダーであり、クローズドな技術を売ろうとして上手く行かなかった経験者である事です。
また、マイクロソフトが2008年にYahoo!を買収しようとして断念した直後、Hadoopを元にした検索エンジン技術のPowersetを買収してBeingに取り込んでいることを考えると、Hadoopの技術者がマイクロソフトの欲しかった物のうちの一つだったのでしょう。しかしOracleのSUN/MySQL買収の結果を見てもわかるように、マイクロソフトが買収に成功していたとしても、Hadoopがオープンソースである限りマイクロソフトの自由にはならないし、肝心な開発者は逃げ出してしまう結果になるのは明らかなので、断念したのかもしれません。
そのように考えると、上記のようなメリットだけでなく、Yahoo!をマイクロソフトの買収から守ったのがHadoopのオープンソース化だとしたら、30億円の投資は安いといえますね。
パソコンに始まってオープンシステム、RDBMS、インターネットとパラダイムシフトが起きるたびに、信頼性やセキュリティを持ち出して新技術をおもちゃ扱いした人たちは皆退場して行った。今クラウドをおもちゃ扱いする人たちは、これから退場する人たちである。
この事を改めて強く感じたのは、Googleが昨年3月に発表した "Datacenter as a computer"が翻訳され「Googleクラウドの核心」として発刊されたので早速読んだからです。
リッテル上席研究員(東大助教授)の太田さんの例えでいうと、水道のユーザーインターフェースは蛇口と排水溝だけだが、背後にはダムから浄水設備、水道配管、課金メータ、下水道、下水処理設備等膨大なインフラから成り立っているのと同様に、シンプルなWEBユーザーインターフェースだが、背後に膨大な仕組みで成り立っているのがクラウドということになりますが、本書はまさにその膨大の仕組みが、どのように作られているかが解説されています。
アプリケーションがデータセンターの設計を変え、IT業界構造を変える
本書でWSC (Warehouse Scale Computing)と呼んでいるものは、単に数万台のコンピュータを倉庫に詰め込んだものではありません。WEBアプリケーションやHadoop等の分散処理ソフトウェアによって、使用するハードウェアを均質化し、冷却設備や電源設備から建屋まで、電力あたりの処理能力を最大化した新しいプラットフォームがWSCです。そしてそれは決して規模だけが競争力ではなく、細かな電力当たりの処理効率改善の積み重ね(プロセッサやメモリ、ディスク、電源部等の部品単位での見直し)である事がよく分かります。
10年前までは、乱暴にいえばHW>SW>設備>電力という順で高額だったコストが、現在では電力>設備>HW>SW(オープンソース)という構造に変化し、処理コストは限りなく消費電力+使用通信帯域課金に近づいて行くと考えられます。
つまりWSCで提供出来るものは、メインフレームやハイエンドUNIXサーバとNAS/SAN共有ストレージが入れ混じったデータセンターでは太刀打ち出来ないレベルの電力あたりの処理能力であり、直接的にいえば破壊的コストで処理能力を提供できるわけです。
従来型アーキテクチャのアプリケーションでは、この破壊的コストパフォーマンスを享受出来ないことが明白であり、この新しいアーキテクチャを活用出来る企業が生き残れるのは間違いないでしょう。
やや旧聞ですが、日経コンピュータの4/28号のクローズアップ記事「リアルタイムに近づくバッチ処理」の後半を読んで、No-SQLの利用がもうここまで来たかと驚きました。
No-SQLとは約1年前にサンフランシスコで開催されたイベントNOSQL meetupで広く知られるようになった、Googleの論文から開発されたHadoop、Facebookで開発されたCassandraなど、従来からある階層型やネットワーク型、オブジェクト型、カラム型等のデータベースとは違う発想で開発された、新しいデータベースの事ですが、多くはオープンソースとして公開されておりコミュニティにより活発に開発されています。
Google Insightによる日本での検索傾向
しかしここにきて前掲の記事のように企業の基幹バッチ業務での実用化が始まっており、またそれを商用サポートするCloudera社やRiptano社等が活躍し始めています。
さらにオープンソースのBIベンダーであるPentahoが世界ではじめてHadoopを公式サポートすると発表し、それを追うように米国IBMもHadoopをベースにしたデータ分析ソフトウェア「InfoSphere BigInsights」を発表、国内でもデータウェアハウスでのNo-SQLを検討する事が増えてきそうです。
しかしNo-SQLの本当の威力は、従来汎用機で処理されてきた会計や受発注など多くのバッチ処理を低コストで劇的に短縮出来る事だと考えられます。つまり翌日や翌週にしか結果が得られなかった締めデータが15分後に出てくるとしたら、業務改革への大きなインパクトになるのではないでしょうか?
ここでいう「クラウド」は広義のクラウドサービスではなく、スケールアウトする分散処理技術としてのクラウドのことです。サービスとしてのクラウドは以前取り上げたようにいくつかの利点がありますが、クラウドでないと実現出来ないキラーアプリケーションというのは実はあまり無いのが現実でした。
しかし昨年秋に開催されたHadoop World 2009から、データウェアハウス、データ分析にクラウド技術を採用すると今まで不可能であった高速大量データ分析が可能になることが注目され始めたようです。VISAやチャイナテレコム、JPモーガンなどがHadoop MapReduceのようなNoSQLデータベースの実用化を始めている事が発表され、国内でもヤフーや楽天での実績が出始めています。
データウェアハウス(ビジネスインテリジェンス)の分野では20年以上前からテラデータ、Oracle、最近ではNeteezaやSun/Oracle Exadataなどの、SQLでの大量データ処理に特化してきた高価なシステムが必要でした。しかし近年のデータ量の爆発的増大に答えたくともユーザーはこれ以上高価な投資はできないので、保存期間を短くしたりサマリーに集約したりしているのが現状でしょう。
Clouderaのブログで紹介された欧州最大のターゲティング広告プラットフォームのnugg.adの事例では、オープンソースのCloudera Hadoop CDH1 ディストリビューションを採用し、Opscodeの Chef を用いたプロビジョニングを行っています。サーバー3台でのスモールスタートから始め、今では計36コア、8TBのディスクのクラスタで処理、以前では5日かかった処理時間を1時間に短縮し、これまで提供が考えられなかったような付加価値サービスが可能となり大きな投資対効果を実現しています。
このようにペタバイトクラスの超大規模データウェアハウスではなくとも、データ分析を競争力としたい先進ユーザーは、新たな選択肢としてクラウド技術を活用したNoSQLデータウェアハウスを検討し始めています。この分野は当分のあいだ目が離せそうにありません。
そろそろ世の中の「クラウド」話も出尽くしてきた感があるので、この辺りで私なりに整理したいと思います。昨年からの「クラウド」の大合唱はIT関連で久々の流行語大賞のような気がしますが、これだけ言われるという事は単なるバズワードではなく、構造変化の底流があるように思います。
まずは、米国 NIST(National Institute of Standards and Technology:国立標準技術研究所)の定義から。“The NIST Definition of Cloud Computing” Authors: Peter Mell and Tim Grance, Version 15, 10-7-09 ( http://csrc.nist.gov/groups/SNS/cloud-computing/ )
『クラウド・コンピューティングとは、(利用者にとって)最小限の管理労力、あるいはサービス提供者とのやりとりで、迅速に利用開始あるいは利用解除できる構成変更可能な計算機要素(例えば、ネットワーク、サーバ、ストレージ、アプリケーション、サービス)からなる共有資源に対して簡便かつ要求に即応できる(オンデマンド)ネットワークアクセスを可能にするモデルである。』
クラウド・コンピューティングが満たすべき5つの条件
|
On-demand self-service オンデマンド・セルフサービス | ユーザー自身が提供者の手をわずらわせずに、必要に応じてコンピューティング資源を利用できる。 |
|
Resource pooling: Location independence リソースのプーリング | コンピューティング資源がプーリングされており、必要に応じて割り当て・解放可能になっている。ユーザーは物理的な場所については意識する必要がない。 |
|
Rapid elasticity 迅速な弾力的拡大・縮小 | ユーザーの必要に応じて瞬時に処理能力を拡大したり縮小できる。 |
|
Measured service 計測されたサービス | リソースの使用量が自動的に計測され、最適化される。また提供者だけでなくユーザーからも監視、コントロール、レポートが可能。 |
これだけでは今ひとつピンとこないしこの条件に当てはまらないものも「クラウド」を名乗っていますので、私なりの「広義のクラウド」を定義したものが、下図のような従来のASPやSaaSまで含めてのサービス基盤です。これだと、世の中の「クラウド」サービスはほとんど当てはまると思います。(自社所有のいわゆるプライベートクラウドは、ここでは論じません)
しかし、従来のASPやSaaSになかった「クラウド」の大きな特徴は、
1.超スケーラビリティ(数十万ユーザー、数千ノード、数PB以上)
2.数分で立ち上げられ、数分でやめられる、リアルタイムオンデマンドサービス
3.完全従量課金、使わなかったら払わなくて良い
の3点です。
1.の超スケーラビリティは一般企業の業務ではあまり関係ないかもしれませんが、2.3.はユーザー企業の購買行動に大きな変化をもたらします。つまりこれまでは企業で何らかのシステムを使い始めるためには、少なくとも数ヶ月と数百万円くらいは必要だったのが、数日で数千円からで可能になり、不要だとわかったらすぐやめられるようになった訳です。
もちろん企業に「クラウド」が普及するためには、セキュリティやガバナンスなどまだまだ足りないピースがありますが、サービスプロバイダにとっては数分で顧客を獲得出来る代わりに数分で失う事にもなり、ソフトウェアベンダーにとっては使わなくても使用料金を払わなければいけなかったのが当たり前だったのが、使わなかったら払わなくて良いのが当たり前の時代がやってきます。
このようにユーザーのスイッチコストが限りなく小さくなっていく方向は、OSS(オープンソースソフトウェア)の普及によってさらに加速すると考えられます。また、Hadoop MapReduceのようなクラウド技術によってこれまで不可能であった大量高速データ処理が可能になったように、「クラウド」でないとできない事はOSSが主体になってきています。
AmazonやGoogleなど本来ITベンダーではない企業が「クラウド」とOSSをリードしていることも、彼らが本業のITインフラコストがどんどんふくれあがる事を抑制するために真剣に考え続けた結論が、他の企業にオープンし共有する戦略だと考えられます。この結果「クラウド」とOSSはこれまでのIT業界の地殻変動を起こし、ユーザーを囲い込むのではなくユーザーにとっての本当の価値を共有できるベンダーが生き残っていくのではないでしょうか?


コメントを投稿する