大規模分散リアルタイム機械学習基盤 大規模データをリアルタイムに解析するために ビッグデータ解析時代における競争力は、大量のデータを効率的に処理し、いち早く分析すること。その解析処理基盤がJubatus(ユバタス)。 jubatus

六角計の図

“速く”かつ“深い”分析はビッグデータの	価値を大きく変える。

Jubatus(ユバタス)は、大規模データをリアルタイムに解析するための、”大規模分散リアルタイム機械学習基盤”です。

人類が取り扱うデータ量は、年々指数関数的に増大しています。「ビッグデータ」と呼ばれるこうした巨大なデータがあらゆる分野で生まれ始めています。これらは単に生み出されるデータ量が増えているということを示すだけではありません。従来は処理対象ではなかったような詳細なログデータや多種多様なセンサーの生データも含まれ、またテキストや動画像のような非構造化データの割合が大きくなっています。一方で、こうした膨大なデータから有用な情報を見つけ出すことが、計算能力の面でもデータ解析技術の面でも可能になりつつあります。しかしながら、Hadoopを含む既存フレームワークの多くは集計やレポーティングなどの単純な分析バッチ処理にとどまっています。

大量のデータをリアルタイムで効率的に処理し、いち早くより深い分析を行ってアクションにつなげることが、ビッグデータ解析時代における競争力になります。このための解析処理基盤がJubatusです。

Jubatusの特徵は3つあります。それはリアルタイム性、大規模処理、深い解析、です。従来のデータ解析技術では、これらの内のいずれかの2つまでしか同時に満たすことが出来ませんでした。Jubatusはこれら3つの全てを特徴として備えることで、これまでとは全く異なる新たな応用を実現する、世界初のビッグデータ解析処理基盤です。

公式サイトのキャプチャ

Jubatusはオープンソースソフトウェアです。

Jubatusの世界初の先進的な解析技術を広く活用頂くため、ソースコードはgithub上でOSS公開されており、誰でもダウンロードして今すぐお使いいただけます。Jubatusは株式会社Preferred InfrastructureとNTTソフトウェアイノベーションセンタの共同R&Dプロジェクトとしてスタートし、現在もOSSコミュニティとして活発に開発が行われています。インストール方法、マニュアル、チュートリアル、その他詳細は公式サイト、及びgithubリポジトリを御覧ください。

エッジヘビーの図

Jubatusの描く未来

現在のビッグデータ処理アーキテクチャはクラウド/Hadoopクラスタ含めて全て中央集権的ですが、Jubatusはその先にある自律分散的なビッグデータ解析を見据えています。例えば、スマートフォン、車、監視カメラなどの数千万台規模の端末が生み出すセンサーデータや動画像から即座にアクションを取る世界がこれから来るでしょう。このとき、全てのデータを中央に集めることはネットワーク帯域と、反応速度の点で現実的ではありません。それらを即時に解析し端末同士が連携して高度な判断とアクションを行うためには分散した端末上で協調動作する解析エンジンが必要です。そのために、分析アルゴリズム、並列分散処理、そして、ネットワークアーキテクチャのすべてを同時に考え最適化していくことをJubatusは目指しています。

参考文献: 丸山宏, 岡野原大輔, 「Edge-Heavy Data: CPS・ビッグデータ・クラウド・スマホがもたらす次世代アーキテクチャ」, GICTF年次総会特別講演, http://www.gictf.jp/doc/20120709GICTF.pdf, 2012.

お問い合わせ
Sedue
Sedue Predictor
Sedue for BigData