「ビッグデータ/Hadoopをバブルで終わらせないために」

ビッグデータ花盛り

SI業界には久しぶりの朗報。ビッグデータ花盛りである。

筆者もお客様のところに伺うと、「ビッグデータ/Hadoopとはそもそもなにか」「我社はさしあたって何をすればよいのか」などよくご質問をいただくようになった。「ビッグデータ/Hadoop」が単なる技術キーワードから、ビジネス界にインパクトを与える関心事になってきていることを実感しているところだ。

とくに、「Hadoop」(本コラムでも「ビッグデータ時代の技術者不足解消に向けて」で取り上げている)は、ビッグデータ処理のコアテクノロジーであり、SI業界にとって久々の大型商材とあって、SI各社は、関連ソリューションの展開に大忙しだ。

これには、たとえばHadoop組込型のクラウドサービスや、ハードウェアにHadoopを組み込んだアプライアンス、HadoopとHadoopの関連ツール群のパッケージング商品(ディストリビューションと呼ばれる)などがあげられる。また、日本IBMやNTTデータ、伊藤忠テクノソリューションズ(CTC)といったSI各社が、ビッグデータ分析人材の育成や調達確保を進めているニュースも伝えられた(2012/1/12日経新聞朝刊)。

データ分析環境としてのHadoop

一方で、一部に見られる、ビッグデータを準備してHadoopに放りこめば、経営上有益なデータが得られる、といったような報道や宣伝文句には留意が必要である。

Hadoopは単なる分散処理フレームワークであり、「ビッグデータを多数の小さな塊に分割すれば各々を処理できて、あとで途中結果をマージすればよい(MapReduce)」といった考えに基づく技術である。

注意しなくてはいけないのは、分割データに対する途中結果をマージするのにコストのかかるデータ処理はHadoopに向かないということだ。したがって、検索エンジンやテキストマイニングに利用されるインデクスファイルの作成や、シミュレーションのように、分割データに対する途中結果をマージしやすい処理(分散性高い)はHadoop向きだが、ツリー分析やアソシエーション分析、行列計算などのように、分割データに対する途中結果をあとでマージすることのできないデータ処理(分散性低い)は、Hadoop不向きと認識する必要がある。つまり、Hadoopが効果を発揮するデータ処理は一部に限られるのだ。

また、データ分析環境としてまだ未成熟であることにも留意が必要であろう。Hadoopによるデータ処理は、データ分割の仕方や分割後データの処理内容をMAP関数の中に、分割データに対する途中結果のマージの仕方をREDUCE関数の中に記述する。記述言語は、Java言語であるが、データ解析専用のSAS、SPSSなどと比較すると、コード量は数倍に膨らむものと考えられる。これにはHive、Pigといった簡易的な言語がOSSで提供されており、こうした状況は改善見込みであるが、企業に蓄積すべき分析コードの資産価値といった観点でみてみると、業界の標準的な地位を占めているSAS、SPSSコードと比較して、将来不透明なHive、Pigコード資産が劣後していることは認識しておくべきであろう。

ビッグデータをバブルで終わらせないために

上記のような事情もあって、国内で、実際に効果の出ている、Hadoopによるビッグデータの処理事例は、主に、ネット企業が、自社で日々蓄積しているWeb・システムログの集計(クロス表作成、ランキング作成など)に限られる。

また、最初に述べたSI各社のソリューション(ディストリビューション、クラウド基盤、アプライアンス)は、ビッグデータを処理する「器」にとどまっている。ユーザ企業がビッグデータを格納する「器」を手にしたとしても、そこから先、経営上必要な有益な情報を取り出すところまでは、まだ随分と距離がある。

ここに過大な期待を背負っているビッグデータ/Hadoopの落とし穴がある。今年の終わり頃には、期待は失望に変わり、ビッグデータ/Hadoopはベンダー主導のバズワードだった、バブルだった、という評価で終わるかもしれない。

確かにHadoopは、これまでのデータ分析環境が相手にできなかった、Webログなどのビッグデータを正面から取り扱う可能性をもった技術である。

しかしながら、ビッグデータ活用の観点で大事なのは、価値のあるビッグデータを、コストをかけて収集・蓄積し、これに統計的に正しい定量分析を加え、ファクトに基づく意思決定やアクションを行い、業績向上に役立てることである。

これには、分析スキルをもった人材や、これをバックアップする組織、そしてなによりも、経営層のビッグデータに基づく意思決定へのコミットメントが必要であり、Hadoopといった要素技術が果たす役割はごく一部であることを認識しておく必要があるだろう。