GENIAC第2サイクルに継続採択
大規模言語モデルで構築した世界最大級の高品質データを活用して10分の1以下の推論コストで利用できる日本語最高性能モデルの開発を目指す
2024.10.10
株式会社Preferred Networks(本社:東京都千代田区、代表取締役最高経営責任者:西川徹、以下、PFN)と、子会社の株式会社Preferred Elements(本社:東京都千代田区、代表取締役社長:岡野原大輔、以下、PFE)は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が協力して実施する、日本の生成AI基盤モデルの開発力向上を目指すプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の第2サイクル事業者に採択されました。PFNとPFEは、1000億トークンの高品質データセットを大規模言語モデル(LLM)を活用して構築し、GENIAC第1サイクルで達成した日本語最高性能と同等もしくはそれを超える性能を、10分の1以下の推論コスト(計算力と消費電力)で実現するLLMをフルスクラッチで開発することを目指します。
本プロジェクトは、経済産業省とNEDOの公募「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発(助成)」に提案して採択されたものです。
これまでLLMのスケーリング則*1にもとづき、性能をあげるためにモデルの大規模化が進められてきました。しかし、大規模なモデルは利用時の推論コストが高くなるため、モデルサイズを抑えたまま高い性能を実現できるモデルが求められています。
モデルサイズを抑えたまま高い性能を実現するには、高品質な学習データを利用することが重要です。しかし、LLMの学習に利用できる高品質な学習データは限られており、特に日本語や専門領域の学習データが足りていないのが現状です。
このような背景から本事業において、PFNとPFEは以下の活動を実施します。
・LLMを利用した世界最大級の高品質な学習データの構築
LLMの性能向上のために、自社開発したPLaMoなどを活用し、日本語・英語あわせて約1000億トークンの高品質なデータセットを作成します。これはLLMで作成された公知の学習データセットと比べても最大級であり、日本語Wikipediaの約50倍に及ぶ非常に大規模なものになる想定です。
・利用時のアクティブパラメータを80億相当に小型化したLLMをフルスクラッチで開発
高品質な学習データを用いてフルスクラッチで最大300億(30B)パラメータモデルの事前学習、事後学習を行います。さらにMixture of Expert(MoE)*2 および、状態空間モデル*3を採用することにより、利用時のアクティブパラメータを80億相当に抑え、推論コストを大幅に削減することを目指します。この30Bモデルは、GENIAC第1サイクルの成果物であるPLaMo-100Bと同等またはそれ以上の性能を有しながら、利用時の計算力と消費電力を10分の1以下にするという高い目標を設定します。また、その検証用に20億パラメータモデルや80億パラメータモデルの開発もおこなう予定です。
・ノウハウの公開と事業展開
開発を通して取得するノウハウは部分的にPFNのテックブログ等で公開します。また、PLaMoシリーズとして、APIやプロダクトの商用展開を予定しています。
GENIAC第1サイクルにおける実績
PFNの子会社であるPFEは、2024年2月から同年8月にかけてGENIAC第1サイクルを通じて1000億パラメータのマルチモーダル基盤モデルPLaMo-100Bをフルスクラッチで開発しました。
https://www.pelements.jp/news/pr20240202/NEDO_ja.pdf
PLaMo-100Bは日本語標準ベンチマークJasterにおいて、現在のフロンティアモデルのOpenAI GPT-4oや Anthropic Claude Sonnet 3.5、Meta Llama3を超える性能を達成し、その他のベンチマークにおいてもトップレベルの性能を示しています。また、PLaMo-100Bの開発ノウハウを活かしてフルスクラッチ開発した10億パラメータの小型言語モデル(SLM)PLaMo Liteは、エッジデバイス向けに2024年8月から商用提供を開始しています。
生成AIなどの基盤モデルと呼ばれるAI技術は様々な分野で活用が進み、これからの社会・産業を支えるインフラ技術としてさらなる進化が求められています。日本国内に最先端の生成 AI 開発技術を確保し、国産で日本語対応能力の高い基盤モデルを開発することは、日本特有の課題や文化への対応、カスタマイズによる高度なサービス・製品の開発に重要です。PFNグループは、日本語性能に優れた世界標準の生成AI基盤モデルの開発を行い、日本の産業のイノベーションの促進と、国際競争力の向上に寄与していきます。
*1 スケーリング則:計算量、データ量、モデルパラメータ数の3つの要素に「Scaling Law(べき乗則)」が成立する (出典 Scaling Laws for Neural Language Models)
*2 Mixture of Experts(MoE):複数のExpertを用意し、入力トークン毎に対して一部のExpertのみを利用することで、モデルを効率的に学習・推論するための手法
*3 状態空間モデル:固定サイズの状態にコンテキスト情報を格納することにより、Transformerの問題であったコンテキストが長くなった場合に推論コストが急激に大きくなる問題を解決できるアーキテクチャ。