ChatGPT1をはじめとした生成AIは多くのビジネスプロセスを高度化し続けてきた。GPT2とはGenerative Pre-trained Transformer(生成可能な事前学習済み変換器)の略だ。入力された言語情報と事前に学習した言語情報をもとに、求められている(とAIが推測する)回答を提示する。その精度の高さゆえ、人間の生産性を大幅に向上させてきた。しかし、課題も見えてきている。言語モデルの民主化に伴い、言語化しにくいものの存在が目立ち始めていることだ。
言語表現の限界
言語とは何か。簡潔に述べるならば、人間が思考や感情、情報を他者に伝達するために用いる記号体系だ。音声や文字といった形態を持つが、その本質は発信者による情報の符号化と受信者による解読にある。そして、文法や語彙を通じて複雑な概念を表現する柔軟性を持ちながら、同時に文化的・社会的な要素と密接に結びついている。
しかし、言語は万能ではない。例えば、視覚や触覚、味覚など感覚的な経験を完全に言語化することには限界がある。これは、人間の感覚体験の豊かさと複雑さに対して、言語による表現手段が相対的に限定的であることに起因するといえる。例えば、病院の問診で「痛み」を伝える際、「鋭い」「鈍い」「シクシク」「ズキズキ」といった表現を用いることがある。しかし、これらが実際の感覚と一致するかどうかは主観的であり、完全な伝達は困難だ。ワインのテイスティングで得られる味覚や嗅覚においても同様の課題がある。プロのソムリエであれば、豊富な語彙をもって表現し尽くすであろうが、「若い」「ゴージャス」「チョークのようなタンニン」といった表現が聞き手に同じ感覚を喚起できるとは限らない。野球のバットスイングにおいても、体重移動のタイミングやバットの角度や振りの速度を言語のみで表現するのは困難だ。熟練した指導者をもってしても「スーッと来た球をガーンと打つ」といった抽象的なオノマトペ表現を用いることがあるが、これは身体感覚を完全に言語化することの難しさを示している。
感覚や感情、運動など非言語的領域における、人間同士でも伝えられないこれらの概念は、生成AIにも現状では完全に把握することは困難だ。その原因の一部として下記が挙げられる。
- データが少ない:言語化が容易な領域と比較し、非言語領域のデータが少ない。「ズキズキとXXが痛む場合は、YYという病気」などと書いてあるテキストは少なく、学習しづらい。学習データの多さが重要となる大規模生成AIでは致命的。
- データ化しにくい:例えば、ある痛みを言語化することが難しく、痛覚情報としても保存することも現時点では困難である。仮に直接痛覚を保存できても、それをTransformerなどに入力可能な形(例えば、トークン)に適切に変換することも現時点ではまだ課題がある。
- 多様な表現:例えば同じ症状でも「ズキズキ」という場合もあれば、「XX」という場合もある。また、同じ文脈であっても他の人の「ズキズキ」と異なる可能性がある。状況や人(体験媒体)に依存する部分も多く、多様(自由度が高く、スパースになりがち)で共通特徴を掴むことが困難。
- バイアスや公平性:例えばマイノリティな集団については、言語情報であってもデータが潤沢とは言い難く、非言語情報はさらにマジョリティに偏る可能性が高い。
マルチモーダルAIは言語表現の限界を超えられるか
では、マルチモーダルAIならばこの問題を解決できるだろうか。マルチモーダルAIとはテキスト、画像、音声、動画、センサー情報など、複数のモーダル(情報様式)を統合して処理する人工知能だ。従来のAIが単一モーダル(例えばテキストデータのみ)に依存していたのに対し、マルチモーダルAIは異なるモーダルを組み合わせることで、より包括的で柔軟な情報処理を実現する。例えば、ある文章に対応する画像を生成したり、動画から文章を生成したりするなど、異なる情報形式間(モダリティ間)の相互変換を可能にする。
しかし、マルチモーダルAIは、複数の情報様式を統合する能力を持つものの、人間の感覚や主観を完全に再現することは、現時点ではやはり難しい。たとえば、バスの路線図は、人間が理解しやすいように図示されている。人間ならば、路線図を見て「YYバスのZZ町1丁目からXX海岸駅までに7駅ある」ことや、「その経路上に□□一丁目がある」といったことを把握できるだろう。しかし生成AIは画像も言語情報も扱えるにも関わらず、路線図の情報からはこれらを把握できない(2024年12月現在)。その主な原因の1つには、画像と言語を同時に扱う学習リソースの不足が挙げられる。
例えば、路線図の画像には、多くの場合「AA急行 路線図」といったキャプションがついているものの、その路線図が示す具体的な経路情報は含まれていない。そのため、AIは「路線図」というカテゴリの画像であると理解はできても、それが交通ネットワークを表現していることや、出発地点と到着地点から経路を導き出せる道具であることまでは理解できていない。路線図を見て「これは路線図である」と認識できるまでが、現時点での限界といえる。
この先に起こりうる未来
では、この先の未来に何が起こりうるだろうか。生成AIの性能は、学習に使用されるデータの量と質に大きく依存するが、今後、画像や音声、テキストを統合的に処理するマルチモーダル化は確実に進展するだろう。先述の非言語領域のデータに関する問題があるため、医療などの一部の分野や視覚・聴覚以外の感覚については時間がかかる可能性が高いものの、人間の感覚や主観を認識・分類できるAIは決して不可能とはいえない。
また、マルチモーダルAIの展開において、データの偏在は依然として課題となっているものの、特定の分野における豊富で質の高いデータセットの存在は、AIの性能を大きく進化させる可能性がある。医療分野はその好例だ。プライバシー保護や倫理的配慮が不可欠だが、電子カルテや医療画像、診断レポートなどの視覚情報とテキストがセットで豊富に存在するため、痛みとその表現に関するデータもこれらのデータセットから進展する可能性がある。
同様に、自動運転技術の分野も、膨大な動画データ、センサー情報、位置データが蓄積されているため、マルチモーダルAIの応用に適している。これらの分野では、大規模な投資と研究開発が行われており、AIテクノロジーの急速な進歩が期待されている。
また、ロボティクスの領域においては、視覚、触覚など複数のセンサーを用いた継続的なデータ収集が、イノベーションの重要な方向性となっている。大規模言語モデル(LLM)は既に一部の機能を代替しつつあるが、物理的な作業や実世界なインタラクションには固有の課題があり、完全な置き換えは困難だ。むしろLLMは高度な判断支援、ロボットは実世界とのインターフェースとして機能することで、相互補完的な関係が発展しつつある。特に注目すべきは、AIエージェントの体験媒体としての可能性だ。タスクによっては、身体的な実体は必ずしも必要ではないものの、実世界での応用を視野にいれると体験媒体の必要性はいうまでもない。センサー技術の進化により、より複雑で豊かな情報入力が可能になりつつあり、特に医療分野では、痛覚センサー、味覚センサー、脳波計測デバイスなどの研究開発が急速に進んでいる。これらの技術は、医療診断、リハビリテーション、患者モニタリングなどの分野で革新的な応用可能性を秘めている。
このような先端的なセンサー技術とAI融合領域は非常に注目を集めており、投資が過熱する領域と推測される。LLMだけでなく、マルチモーダルセンサー技術は、人間の感覚や主観をも理解できる次世代のAIの進展において、極めて重要な役割を果たすだろう。たとえば、現状のECサイトにおけるワインのレコメンドは、味覚情報を扱うことが不可能なため、味覚そのものではなく購買履歴や画像、商品説明などからレコメンドしている。しかし、味覚情報を直接扱えるようになると、新商品やレストランなどのレコメンドの性能は向上するはずだ。
ただし、マルチモーダルAIの発展は、単にデータ量だけでなく、データの多様性、質、倫理的考慮、プライバシー保護などの複合的な要因に依存することに注意が求められる。特に医療分野などは極めてセンシティブな情報が多々存在するため、プライバシーやセキュリティリスクについてのガバナンスが必要だ。
おわりに
生成AIはビジネスプロセスを効率化し、生産性を大幅に向上させる可能性をもっているが、自然言語、ならびにGPTを含む言語モデルには固有の限界があることは念頭にいれておく必要がある。したがって、自社のビジネス課題が言語処理だけで解決できるのか、それとも他の能力も必要なのかを見極めることが重要だ。言語のみでは原理的に解決が困難な場合は、適切な機能を持つツールや仕組みと組み合わせるなど、解決に必要なソリューションを検討する必要がある。生成AIがもたらす可能性と、その技術的な限界も含めて総合的に洞察し、戦略を立案することが、今日のリーダーに求められる重要な役割といえる。
1, 2 ChatGPT、GPTはOpenAI社の登録商標です。
監修
KPMGアドバイザリーライトハウス
アドバンスドアナリティクス部
マネージャー 廣川 典昭
執筆
株式会社KPMGアドバイザリーライトハウス
ストラテジー&ビジネスオペレーションズ部
マネージャー 品田 洋介