Part2では、「顕在的課題」と「潜在的課題」という時間軸での未来の展望を考察しました。マルチモーダルAIの進歩は、単に技術的な成果にとどまらず、それを社会の発展と課題解決にどう結びつけるかが重要なポイントです。この視点から、本稿では、マルチモーダルAI構築から見える社会課題と、企業がとるべき姿勢について考察します。

マルチモーダルAI構築から見える社会課題ととるべき姿勢

マルチモーダルAIが、異なる種類のデータモーダルを組み合わせて高度な解析や推測を行う技術として注目されていることはすでに述べました。しかし、その高度な機能性を支える背後には、さまざまな課題や困難が存在します。代表的な課題を以下に整理します。

【図表1:マルチモーダルAI構築の課題】

課題の分類 課題の内容 課題の詳細
アルゴリズムモデリング 情報の整合性の確保 異なるモーダルの情報間の整合性やタイミングを合わせることが求められる。
(例)TV会議の音声と画像のずれ
 
特徴量の選択 複数のデータソースからの情報の組み合わせ。主要な特徴量の選択・統合。
(例)画像とテキストを組み合わせて商品を推薦する場合、どの情報を優先して評価するか
 
過学習のリスク 複数のモーダルを組み合わせることで起こる、特定のデータセットへの過度な最適化。
(例)特定の顔の表情と音声の組み合わせを学習したAIが、他の環境や文化の表情や音声に対応できなくなる
 
データ品質 不均衡なデータ分布 各モーダルのデータセットの大きさや質が異なる場合、モデルの性能に偏りが生じる。
(例)音声データは豊富だが、関連する画像データが少ない場合
ノイズの影響 マルチモーダルデータは、1つのモーダルにノイズがあると全体の性能に影響する。
データの一貫性 異なるソースや時間で収集されたデータ間の一貫性が欠けると、モデルの予測の信頼性が低下する。
(例)気象情報と衛星画像を組み合わせて農作物の状態を予測する際、同じ時間帯のデータでないと正確な予測が難しい
データ取得 プライバシーとセキュリティ マルチモーダルデータを取得する過程で、個人情報が含まれる可能性がある。
取得コスト 複数のモーダルのデータを同時に取得するためのセンサーやデバイスの設置・維持コストが高い。
(例)工場内の機械の動作を監視するために、画像、音、振動データを同時に取得するための設備投資

図表1の「アルゴリズムモデリング」で挙げた課題に対しては、「情報の整合性の確保」「特徴量の選択」「過学習のリスク」などについてすでに数々の提言がなされています※1※2※3。そのため、本稿ではこれらの詳細な議論は避けます。

モデル設計の実務面では、取り扱うデータの特性や出力形式に応じて、ドメイン固有のヒューリスティックな対処に頼る場面もあり、カナダ・アルバータ大学のリチャード・サットン教授が「The Bitter Lesson」(苦い教訓)※4で述べた「General Method」(汎用の手法)がこのマルチモーダルAIで期待されるものの、現在の技術でもまだそれに相当する手法はないと思われます。

図表1において、特に「不均衡なデータ分布」と「プライバシーとセキュリティ」については、企業戦略や社会全体に深くかかわる問題として捉えることができます。「不均衡なデータ分布」を考慮すると、多くの企業がデジタルトランスフォーメーションの一環として社内データのデジタル化を進め、それらの情報をオンプレミスやクラウドベースのシステムで効率よく管理しています。

しかし、その大部分がテキストデータであり、画像、動画、音声などのマルチモーダルデータはまだ十分に利活用されていないのが現状です。現場の実力や経験、五感に裏打ちされたノウハウは、テキストデータだけでは十分に反映されません。この点で、マルチモーダルAIが提示する新たな可能性に目を向ける時期が来ていると考えます。テキスト以外のデータの取得と管理、そしてそのデータをどのようにビジネスに活かすかが、今後の競争力を左右する要因となるでしょう。

声と顔の情報を組み合わせて個人の心理状態を解析するマルチモーダルAI技術は、マーケティングや医療分野での利用価値が高いと期待される一方、「プライバシーとセキュリティ」の問題も無視できません。2022年、Microsoft社は「Azure Face」の一部機能、具体的には性別や年齢、笑顔などの属性推定機能を廃止する動きを見せました※5。これは「責任あるAIの原則」を体現するものであり、OpenAIもGPT-4Vのリリースに際して同様の配慮をしています※6。欧州ではAIによる人種や顔の表情の取扱い、さらにはAIの使用領域についての制限が強化されています。日本もこのような国際的な流れから外れることは難しく、AIを戦略的に活用するうえで、プライバシーとセキュリティの課題は避けて通れないものとなっています。総じて、技術の進化とともに浮かび上がってくる課題や可能性を、ビジネスリーダーは敏感にキャッチし、適切な方向性を見極めることが求められます。現代のリーダーシップには、テクノロジーの理解とその活用方法の習得が不可欠です。

※1:MIT Technology Review「2021重大技術:「マルチモーダル」でAIはもっと柔軟かつ堅牢になる」
※2:総務省「AI戦略における総務省の取組」
※3:DX/AI研「なぜ?AIが学習しすぎる「過学習」問題とは」
※4:Richard Sutton「The Bitter Lesson」
※5:ITmedia NEWS「Microsoft、性別や感情を解析するAI顔認識ツールのAzureでの提供を停止」
※6:OpenAI「GPT-4V(ision) System Card」

※本文中に記載されている会社名・製品名は各社の登録商標または商標です。

執筆者

KPMGコンサルティング
マネジャー 小久保 慎平

高速進化するAIがもたらす未来

お問合せ