日本電信電話株式会社(東京都千代田区、代表取締役社長:三浦 惺、以下「NTT」)と株式会社プリファードインフラストラクチャー(東京都文京区、代表取締役社長:西川徹、以下「PFI社」)は、ビッグデータ*1と呼ばれる大規模データをリアルタイムに高速分析処理する基盤技術「Jubatus*2」(第1版)を開発しました。
直近の潮流変化を調べる等、対象データの新しさを意識したビッグデータ分析アプリケーションを作成するニーズに対して、従来のバッチ処理による定期的な一括処理は、新しいデータの分析が次の実行タイミングまで待たされる点で十分ではありませんでした。
Jubatusは、新しいデータを取り込みリアルタイムに分析することで、不正検知、市場・経済・株価予測、自然災害予測、製造業の部品・材料調達予測、健康リスク予測、生命科学・自然科学上の予測技術などの広い領域で付加価値サービスの創出に貢献します。
今回の開発は、NTTの情報流通プラットフォーム研究所とPFI社とのオープンイノベーションの成果であり、10月27日よりJubatus OSS 提供サイトhttp://jubat.us/にて公開し、ビッグデータ活用に寄与する共通財産として、オープンソースソフトウェアとして公開します。
近年、さまざまな分野で「情報爆発」という言葉で語られるデータの爆発的な増加が顕在化し、ビジネスにおけるビッグデータの積極的な有効活用がますます重要となってきています。
現在のビッグデータの解析方法では、クラウド環境を構成するサーバ群にビッグデータをいったん蓄積し、一定期間分をまとめて高速に処理するバッチ処理が一般的です。特にHadoop*3の注目度が高く、利用実績も増えています。
ところが、世の中の変化のスピードは極めて速く、SNS分析、異常トラフィック検知や不正アクセス検知などのアプリケーション領域で高度な解析・予測に基づく迅速な意思決定を実現するために、時系列で流れ込んでくる大量データを、蓄積せずリアルタイムに、高度解析する技術が必要となってきました。
(1)MIX処理方式
次の3つの機能から構成される処理方式です。
①MIX計算:データ解析処理のロジックに応じて、集約計算ロジックをアレンジする機能
②MIXプロトコル制御:サーバ間で、途中の解析結果を答え合わせする際のデータの集め方と再分配のやり方を決める機能
③メンバシップ管理機能:絶え間なくデータを処理するため、サーバ障害をリカバリ
したりデータが溢れるまえにサーバを追加したり、リーダを決める機能
同時並列で解析しても、全サーバが毎回待ちあわせて中間結果を集約することは明らかなボトルネックを生じます。毎回でなく、適度な時間間隔で他サーバと中間結果を交換して平準化することで、各サーバはなるべくブレーキをかけずに自律的に走ることができます。アプリケーション要件が許容可能な範囲で集約結果の精度と厳密性(全体の一貫性)を緩めるように、リアルタイム性とスケーラビリティの両立を調整します(図3)。
(3)ワークフロー化
データ入力から、応用解析処理、解析エンジンなどのプロセス構成間のパスおよび並列実行などの柔軟で容易な定義と実行制御を可能にしています。
今回は、深い解析事例としてオンライン機械学習における多値分類器を実装し、これらの方式の確認と性能測定、チューニングを実施しました。
NTTとPFI社は、研究開発をさらに進めるとともに、Big Dataに関わる情報処理技術の発展に寄与するために、Jubatusコミュニティの拡大、ならびにその上のビジネスマーケットの拡大も目指し、リアルタイム型大規模データ分析基盤技術の普及促進とビジネス展開を目指します。具体的には、次のような応用サービスへの適用が考えられます。




