指先の向きや手の重なりまで認識できる3D姿勢推定技術を開発
ソフトバンクの手話と音声のコミュニケーションシステム SureTalk に採用、手話アバター動画の生成に活用
2021.07.27
株式会社Preferred Networks(本社:東京都千代田区、代表取締役 最高経営責任者:西川徹、プリファードネットワークス、以下、PFN)は、深層学習を活用して身体の動きや指先の向きまで高精度に認識する3D姿勢推定技術を開発し、協業先を募集します。
これまでPFNでは、イラスト向けとして、動画撮影した人物のモーションをトラッキングし、2Dキャラクターに同じ動きを反映させる技術をコミックマーケット94(2018年)に出展したほか、スポーツ解析向けとして、サッカーのパスコース判定に姿勢推定技術を応用してきました。
今回、3DCGによる人体シミュレーションによって大量の学習データを作成し、それをPFNのスーパーコンピュータで学習して、全身を総合的に認識できる高度な3D姿勢推定モデルを構築。専用カメラによる撮影や、身体へのセンサー装着の必要がなく、これまでの技術で課題となっていた指先の向きや両手が重なる場面などでの誤検出を大幅に削減し、 スマートフォン等で撮影した動画でも身体細部の動きを高精度にトラッキングできるようになりました。これにより、これまでデジタル化が難しかった楽器演奏やスポーツの解析、細かな手作業の技術継承、遠隔診断・リハビリなどへの技術応用が期待できるとともに、アバターアニメーション制作などの自動化を進めることが可能になります。
この3D姿勢推定技術は、ソフトバンク株式会社が開発する、手話と音声による双方向コミュニケーションシステム SureTalk(シュアトーク)に採用されています。ソフトバンクが集めた多様な手話動画から、指先の向きや身体(手首・肘・肩・首・鼻・腰)の動きをトラッキングし、手話話者個人を特定しない、コンピュータグラフィックス(CG)による統一規格の手話アバター動画を生成するための基礎技術として活用されています。手話では指の動きや手の重なりが語彙の意味に影響するため、指先まで認識できる高度な3D姿勢推定技術が不可欠です。この技術により自動生成された手話アバター動画は、手話話者によるオリジナル動画の再現性を複数の目でチェックし、正しい手話表現になるよう微修正を加えて公開されます。
PFNは今後、ソフトバンクと共に日本語音声から手話アバター動画を自動生成する技術の開発を進め、聴覚障がい者と健聴者との円滑なコミュニケーションの実現を目指します。
上段左:PFNの3D姿勢推定技術による動作認識の結果(「合う」という意味の手話表現)
上段中央・右:認識結果から SureTalk 向けに自動生成した統一規格の手話アバター
下段: 3次元座標にプロットした認識結果