マルチモーダルAIがもたらす未来　Part1

2022年11月、ChatGPTのリリースにより、生成AIの波がビジネスの前線に押し寄せました。そして、2023年9月のターニングポイントとして、GPT-4Vが登場しました。これは単なるテキストデータの処理から、画像データも扱うマルチモーダルAIへの進化を示しています^※1。ビジネスの現場で生成AIを活用する際、多くの経営者や専門家はテキストベースのAIを用いて、問題解決やアイディエーションのサポートを受けてきました。その有効性は疑いようのないものですが、テキストだけという制約下での活用には限界を感じていた人も少なくないでしょう。マルチモーダルAIの台頭により、画像をはじめとする新たなモーダルをデータとして取り扱うことで、ビジネスの可能性は飛躍的に広がると考えられます。

本稿では全3回にわたって、マルチモーダルAIの特徴、前向きな視点による未来の展望、マルチモーダルAI構築から見える社会課題と企業がとるべき姿勢について考察します。

マルチモーダルAIとは

これまでのAI技術、特にシングルモーダルAIは、1つのデータモード、たとえばテキストや画像のみを扱うものでした。代表的な事例としては、顧客の質問やフィードバックをテキストとして解析し、自動的に適切な回答を生成するチャットボットが挙げられます。これらの技術はビジネスの効率化やコスト削減に貢献しましたが、その解析能力は入力データがテキストに限定されることから限度も明白でした。そこで登場したのがマルチモーダルAIです。この技術は、従来の自然言語で書かれたテキスト文書に加え、画像・映像や音声などといった異なるモーダルを複合的に入力情報とすることで、シングルモーダルAIに比べて高度な出力結果が期待されています（図表1）。マルチモーダルAIが業界で注目される理由の例として、以下の2点が挙げられます。