Home / 社長ブログ

やや旧聞ですが、日経コンピュータの4/28号のクローズアップ記事「リアルタイムに近づくバッチ処理」の後半を読んで、No-SQLの利用がもうここまで来たかと驚きました。

No-SQLとは約1年前にサンフランシスコで開催されたイベントNOSQL meetupで広く知られるようになった、Googleの論文から開発されたHadoop、Facebookで開発されたCassandraなど、従来からある階層型やネットワーク型、オブジェクト型、カラム型等のデータベースとは違う発想で開発された、新しいデータベースの事ですが、多くはオープンソースとして公開されておりコミュニティにより活発に開発されています。

Google Insightによる日本での検索傾向

2

しかしここにきて前掲の記事のように企業の基幹バッチ業務での実用化が始まっており、またそれを商用サポートするCloudera社Riptano社等が活躍し始めています。

さらにオープンソースのBIベンダーであるPentahoが世界ではじめてHadoopを公式サポートすると発表し、それを追うように米国IBMもHadoopをベースにしたデータ分析ソフトウェア「InfoSphere BigInsights」を発表、国内でもデータウェアハウスでのNo-SQLを検討する事が増えてきそうです。

しかしNo-SQLの本当の威力は、従来汎用機で処理されてきた会計や受発注など多くのバッチ処理を低コストで劇的に短縮出来る事だと考えられます。つまり翌日や翌週にしか結果が得られなかった締めデータが15分後に出てくるとしたら、業務改革への大きなインパクトになるのではないでしょうか?

ここでいう「クラウド」は広義のクラウドサービスではなく、スケールアウトする分散処理技術としてのクラウドのことです。サービスとしてのクラウドは以前取り上げたようにいくつかの利点がありますが、クラウドでないと実現出来ないキラーアプリケーションというのは実はあまり無いのが現実でした。

しかし昨年秋に開催されたHadoop World 2009から、データウェアハウス、データ分析にクラウド技術を採用すると今まで不可能であった高速大量データ分析が可能になることが注目され始めたようです。VISAやチャイナテレコム、JPモーガンなどがHadoop MapReduceのようなNoSQLデータベースの実用化を始めている事が発表され、国内でもヤフーや楽天での実績が出始めています。

データウェアハウス(ビジネスインテリジェンス)の分野では20年以上前からテラデータ、Oracle、最近ではNeteezaSun/Oracle Exadataなどの、SQLでの大量データ処理に特化してきた高価なシステムが必要でした。しかし近年のデータ量の爆発的増大に答えたくともユーザーはこれ以上高価な投資はできないので、保存期間を短くしたりサマリーに集約したりしているのが現状でしょう。

Clouderaのブログで紹介された欧州最大のターゲティング広告プラットフォームのnugg.adの事例では、オープンソースのCloudera Hadoop CDH1 ディストリビューションを採用し、Opscodeの Chef を用いたプロビジョニングを行っています。サーバー3台でのスモールスタートから始め、今では計36コア、8TBのディスクのクラスタで処理、以前では5日かかった処理時間を1時間に短縮し、これまで提供が考えられなかったような付加価値サービスが可能となり大きな投資対効果を実現しています。

このようにペタバイトクラスの超大規模データウェアハウスではなくとも、データ分析を競争力としたい先進ユーザーは、新たな選択肢としてクラウド技術を活用したNoSQLデータウェアハウスを検討し始めています。この分野は当分のあいだ目が離せそうにありません。