2022年11月、ChatGPTのリリースにより、生成AIの波がビジネスの前線に押し寄せました。そして、2023年9月のターニングポイントとして、GPT-4Vが登場しました。これは単なるテキストデータの処理から、画像データも扱うマルチモーダルAIへの進化を示しています※1。ビジネスの現場で生成AIを活用する際、多くの経営者や専門家はテキストベースのAIを用いて、問題解決やアイディエーションのサポートを受けてきました。その有効性は疑いようのないものですが、テキストだけという制約下での活用には限界を感じていた人も少なくないでしょう。マルチモーダルAIの台頭により、画像をはじめとする新たなモーダルをデータとして取り扱うことで、ビジネスの可能性は飛躍的に広がると考えられます。
本稿では全3回にわたって、マルチモーダルAIの特徴、前向きな視点による未来の展望、マルチモーダルAI構築から見える社会課題と企業がとるべき姿勢について考察します。
マルチモーダルAIとは
これまでのAI技術、特にシングルモーダルAIは、1つのデータモード、たとえばテキストや画像のみを扱うものでした。代表的な事例としては、顧客の質問やフィードバックをテキストとして解析し、自動的に適切な回答を生成するチャットボットが挙げられます。これらの技術はビジネスの効率化やコスト削減に貢献しましたが、その解析能力は入力データがテキストに限定されることから限度も明白でした。そこで登場したのがマルチモーダルAIです。この技術は、従来の自然言語で書かれたテキスト文書に加え、画像・映像や音声などといった異なるモーダルを複合的に入力情報とすることで、シングルモーダルAIに比べて高度な出力結果が期待されています(図表1)。マルチモーダルAIが業界で注目される理由の例として、以下の2点が挙げられます。
(1)複雑なコンテキストの理解
一部の情報は文書だけでは表現しきれません。画像や音声などの異なるモーダリティと組み合わせることで、より総合的な情報の解析が可能となり、精度の高い分析や推論が期待されます。
(2)情報の時制性
テキスト文書は主に過去の事例やノウハウといった、時制を持たない情報を提供します。マルチモーダルAIでは、画像や音声、さらには温度や圧力などの「現在」の情報も取り入れることで、よりリアルタイムな判断や分析が可能となります。
【図表1:シングルモーダルAIとマルチモーダルAI】
今回は、一般的なマルチモーダルAIの特徴、加えてそれに期待される高度化のポイントについて紹介しました。Part2は本稿の中編として、前向きな視点による生成AIの利活用の未来を考察します。
※1:Multimodal Machine Learning: A Survey and Taxonomy
※本文中に記載されている会社名・製品名は各社の登録商標または商標です。
執筆者
KPMGコンサルティング
マネジャー 小久保 慎平