Seadue for Bigdata

デモ画面

非構造化 / 構造化データを リアルタイムに集積、分析、探索する。

Sedue for BigDataはリアルタイム・高スループットに特化し、大規模分散環境において構造化データ・非構造化データのどちらに対してもリアルタイム分析を可能にする、ビッグデータ向けの分析プラットフォームです。

ビッグデータとは、単にデータサイズが大きいという課題を指すだけの言葉ではありません。データの種類、更新頻度の上昇も技術的な課題となります。またこれまで使われてきたRDBMSでは扱いにくい、非構造化データが増えているというのも大きな課題です。例えば社内文書などのテキストデータや防犯カメラなどから出てくる画像データは、非構造化データの典型例です。

一方、扱うデータの流量が増大することは、これまで以上にソフトウェアの処理速度が重要になることを意味します。効率の悪いソフトウェアを使っていたのでは、解析結果が出るまでに2週間も3週間も待たされる、といった問題が起こりえます。そのめデータ分析に使用するソフトウェアにとって、処理能力はこれまで以上に必須の要件となっているのです。

機械学習と検索技術の融合

Sedue for BigDataは、Preferred Infrastructureが長年開発してきた大規模分散検索エンジンSedueと、NTTソフトウェアイノベーションセンタと共同開発してきたJubatusを統合した、リアルタイム大規模データ分析基盤です。

検索対象となる文書にあらかじめ機械学習でタグ付けを行うことで、検索はもっと使いやすくなります。もちろんSFBDでは、どんなタグ付けを行うかは、ユーザーが自由に決められます。通常、機械学習を使う上で頭が痛いのは正解データの作成ですが、そこでSedue for BigDataが提供する高速な検索機能が生きてきます。「こんな表現を使ってる文書にはこういうタグを付けておこう」といった操作が簡単に実現できます。

機械学習で検索を使いやすくする。一方で、機械学習のためのデータ作りを検索で簡単にする。機械学習と検索技術が相補的に働くよう、Sedue for BigDataは作られています。

既存ソリューションとの違い

Sedue for BigDataは、検索技術・機械学習技術の統合とそのリアルタイム化を実現しました。
ビッグデータ分析の分野においては様々なソリューションが存在しますが、それらの技術との比較は次のようなものとなります。