VLMの台頭と進展
近年、視覚言語モデル (VLM) が著しく発展し、ビジネスでの活用も加速しています。本記事では、VLMの基本構造や学習手法を整理し、実務のニーズに応じてVLMを導入する際の要点を技術的観点から概説します。特に、2024年に公開されたオープンソース VLM 「Molmo」を事例に、モデルの構成や設計思想を踏まえながら論じます。
直近の技術動向に目を向けると、従来別個に扱われていた言語モデルと視覚言語モデルの境界が曖昧になり、単一のモデルで複数モダリティを統合的に扱うマルチモーダルLLMが主流になりつつあります。本記事では説明の便宜上、テキストと画像を統合的に扱うモデルをVLMと呼び、その内部構造や実務上の課題に焦点を当てます。
VLMとは何か
視覚言語モデル (VLM) は、大規模言語モデル (LLM) を拡張したマルチモーダルモデルで、テキストと画像を入力としてテキストを生成します。これにより、ユーザーは画像の内容に関する質問をモデルに投げかけることができます。
LLM および VLM は、いずれも学習データに基づいて動作する確率的なモデルです。 同じ入力に対して必ずしも同一の出力が生成されるとは限りません。
VLM はさまざまなタスクに汎用的に対応可能ですが、その性能は採用しているモデルの種類や訓練データ、訓練方法に大きく左右されます。 現状、多くのVLMは幅広いタスクで一定水準の成果を上げていますが、各タスクに特化した専用モデルに比べて必ずしも優位な性能を示すとは限りません。
VLM/LLMの中核をなす技術
VLMはLLMと同様にトランスフォーマー技術1を基盤としています。トランスフォーマー技術とは、データ内の重要な関連性を自動的に見つけ出し、文脈を踏まえて情報を理解・処理するための技術です。トークン化された入力を、意味的特徴を反映した埋め込み表現に変換し、「アテンション」機構がどの埋め込みに重点を置くべきか決定しながら逐次的に出力を生成します。
VLM の場合、画像の入力は Vision Transformer (ViT)2に代表される専用モデルにより埋め込みに変換されます。これらのモダリティの異なる画像埋め込みとテキスト埋め込みは言語モデルに統合され、画像とテキストの関係性をアテンション機構により捉えながら、最終的な出力が生成されます。近年は、画像とテキストを共通のトークンおよび埋め込み表現に変換し、単一のトランスフォーマーで統合的に処理する設計も増えています。
VLMの学習
VLM の学習は、通常複数の段階で構成されます。
事前学習 (Pretraining)
大量の画像とキャプションのペアから、画像とテキストの関係性を包括的に学習します。
教師ありファインチューニング (Supervised finetuning)
特定のタスクに適用するために、画像とアノテーションのペアを用いて追加学習を行います。(ペアの具体例については後述のMolmoのケーススタディ参照)
選好アライメント (Preference alignment)
強化学習を活用し、モデルの出力をユーザーの要望や好みに最適化します。
これらの段階に加えて、既存の大規模モデルの出力を小規模なモデルが模倣するように学習させる「蒸留」手法も一般的に活用されており、リソースの制約があるビジネス環境において、効果的なアプローチとして注目されています。
ケーススタディ: Molmo の設計と学習に見る VLM の活用検討
Molmo は、Allen AI によって開発された VLMのシリーズです。Molmoの大きな特徴は、モデル構築におけるあらゆる手法やデータがAllen AIより公開されている点にあります。こうした情報開示により、モデルがどのようなデータに基づいて性能を発揮しているのか分析可能になり、実運用を見据えたモデル評価に有用です。
2024年12月に発表された技術レポート3では、Molmoの開発アプローチや、その構築に活用されたデータセット(総称:PixMo)のキュレーション方法について詳細に説明されています。さらに、2026年1月の Molmo2 のリリースにより、画像に加えて動画解析の能力も向上したことが報告されています。
Molmo (Molmo 2) は、従来型のVLM構成を代表するモデルの1つであり、現在のマルチモーダルLLMへの発展を理解するうえでの基礎として有用です。次節以降でその構成と設計、ビジネス活用の要点を概観します。
図表1:Molmo VLMアーキテクチャの図
出所:Deitke, M., Clark, C., Lee, S., Tripathi, R., Yang, Y., Park, J. S., et al. (2024). Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models. arXiv. https://doi.org/10.48550/arXiv.2409.17146
Molmoのアーキテクチャ
Molmoは図 1のように構築されています。入力された画像は「ビジョンエンコーダー」を通じて埋め込み表現に変換されます。その後、画像埋め込みとテキスト埋め込みの相互理解を可能にする「コネクター」と呼ばれるモジュールを経由します。一方、テキストデータはトークン化および埋め込み化され、画像埋め込みと統合されたうえでLLMへ入力されます。LLMが両者の情報をもとに最終的な出力を生成します。
Molmo データ (PixMo)
Molmo モデルは PixMo と呼ばれる 7 種類のデータセットで学習されています。各データセットは主に異なるタスクに焦点を当てており、目的や用途に応じて構成されています。
- PixMo-Cap: 約71万枚の画像と130万件のキャプションデータで構成されています。
- PixMo-AskModelAnything: 73,000枚の画像に対し、162,000件の質問・回答ペアが紐付けられています。質問は人間が作成し、回答はLLMにより生成された準人工データセットです。
- PixMo-Points: 14,000枚の画像に対し、79,000件のテキストと座標ポイントデータが付与されています。
- PixMo-CapQA: 162,000枚の画像と214,000件の質問・回答ペアで構成されており、キャプション情報から生成されたデータです。
- PixMo-Docs: 25万5千枚の文章を多く含む画像、例えば図表などが対象となり、230万件の質問・回答ペアが付与されています。
- PixMo-Clocks: 83万枚の時計の人工画像と、その時計が表示する時刻に関する質問・回答ペアがセットされています。
- PixMo-Count: 36,000枚の画像に対して、画像内の物体数に関連する質問・回答ペアが付与されています。
Molmo で使用される学習データには、他のオープンソースのデータセットも多数含まれています。
Molmo2 は、これらのデータセットに加え、動画内の物体追跡タスク専用のデータセットが加わり、単一画像へのアノテーションから動画全体へのアノテーションへと対応範囲を拡大しています。
Molmo の学習
Molmo モデルは、 2 段階の 学習プロセスを経て構築されます。まず、事前学習フェーズではPixMo-Capデータセットを活用し、基礎的な画像認識能力を獲得します。次に、教師ありファインチューニングフェーズでは、他の関連データセットも含めて、より高度なタスクへの適応力を強化します。Molmoモデルの学習過程には、アライメントフェーズは含まれていません。
VLMの学習と導入検討に関する注意事項
VLM の 性能は、使用されたデータセットの数量や種類のみを確認しても正確に評価することはできません。例えば、VLMの出力を業務プロセスにおいてさらに自動処理する場合、JSON などの構造化データ形式による出力を求めるケースが多くあります。このような出力は解析や後続処理の効率化に寄与しますが、構造化された形式での出力では、1 文字の誤りがデータ構造の破損や業務システムとの連携障害につながる場合があります。
なお、出力形式の規則を厳格に順守する機能は、VLMに自動的に備わるものではありません。例えば、著名な Qwen3 シリーズのオープンソースモデルでは、選好アライメントフェーズにおいて出力フォーマット順守能力の向上を目的とした調整が行われている旨が、2025年5月の技術報告書4に記載されています。
VLMをビジネスニーズに適応させるには
以下では、特定のプロジェクトに VLM を導入する際に、判断・検討すべき主要なポイントについて解説します。
プロトタイプ開発の加速
VLM はその汎用性により、プロジェクトの試作段階を迅速に進めることを可能にします。特に、光学文字認識 (OCR) や画像理解を含むタスクにおいてVLMは非常に高い性能を示しており、既存モデルを活用することで一定の精度を伴う結果が得られます。例えば、壁の落書きや商品パッケージのブランド名など、機械可読性が低い実世界のシーンからもテキスト抽出が可能となります。
この特性により、データ収集やモデル学習・評価パイプラインの構築といったリソースを大きく割く前段階において、VLMは実現可能性の検証やベースラインの策定において有効な手段となり得ます。
PoCと本番運用のギャップ
しかしながら、プロトタイプ開発段階で得られた結果がそのまま本番環境に適用可能であるとは限りません。実運用では、精度要件に加え、出力の安定性、処理速度、運用コスト、セキュリティなど複数の要件を高いレベルで満たす必要があり、PoC段階でこれらの要件が顕在化しないことが、導入を阻む要因となるケースが見られます。
さらに、PoC段階では利用可能なデータが限定的であることも多く、本番環境で想定されるデータ分布や難易度を十分に再現できない場合があります。この結果、プロトタイプ時点で得られた精度評価が実運用時の性能を過大に見積もることになり、本番導入の意思決定を困難にしたり、本番導入段階で初めて課題が顕在化したりするケースも少なくありません。特に、想定ユースケースにおいて重要なエッジケースや尾部の長い分布が十分に考慮されていないと、本番環境での性能劣化の原因となります。
このように、VLMの導入においては、モデル自体の性能に加えて、評価データの設計や検証プロセスの設計が、本番運用の成否に大きく影響します。以下では、PoCから本番運用への移行を阻む課題を、より具体的に見ていきます。
出力の不確実性と制御性
VLM も他の深層学習モデルと同様に確率的なモデルであり、特定の出力が得られるかは、モデルが学習したデータに依存しています。 Molmoのようなモデルの場合、訓練されたタスクと類似する業務領域では高い性能を期待できます。特にクローズドモデルの場合、どのようなデータで学習されたか不明な場合が多く、実データによる検証を通じた性能や挙動の評価が重要です。
実際の運用においては、VLM は一定の出力誤差を示す場合があり、どの程度の誤差が許容されるかはユースケースごとに異なります。例えば、誤差の許容範囲が非常に狭くてリアルタイム処理が求められている場合は、現状の VLM を効果的に活用するのは難しい場合があります。一方で、予測結果が集計や統計レベルで活用されるケースでは、 VLM が有効な選択肢となり得ます。例えば、実店舗の映像データから顧客の人口統計を分析する場合、個々の予測の完全な正確性よりも、全体としての傾向や分布の把握が重要と考えられます。
VLM の確率的な特性は、セキュリティ観点でも留意が必要です。人間には識別できない微小な変更によって、モデルの画像認識結果が大きく変化する「敵対的攻撃」が知られています。品質保証やリスク管理の観点から、VLM を導入する際には、こうした脆弱性を考慮し、適切なガードレールや運用ルールの設計が不可欠です。言語モデルの敵対的攻撃に対する耐性については現在も活発な研究が行われており、仮に数理的な保証が与えられても、その保証自体が確率的な性質を持つ場合が多くあります。
タスク適合性とモデル選定
研究機関からは新たな VLM モデルが次々とリリースされています。これらのモデルはおおむねアーキテクチャが類似していますが、精度やスループット向上のための革新的なアプローチも引き続き登場しています。例えば、最近発表された Qwen3.5 シリーズは、前世代モデルと比較して処理速度が数倍に向上することを謳い、 全体的なベンチマークスコアの向上につながる技術を採用しています。
特に初期の実現性調査段階でカスタマイズしたモデルの導入を決定していない場合は、最新モデルの動向を常に把握しておくことで、ベースラインとなる性能の最大化が可能となります。 一方で、新たなモデルを本番環境に導入するために必要なリソースはモデル公開より遅れることが一般的であり、以前のモデルにはなかった性能の欠陥が生じることもあるため、十分な検証プロセスが不可欠です。
また、モデルの性能は、実際に学習されたタスクやデータセットの内容によって大きく左右されます。例えば、Molmo はバウンディングボックス(矩形領域)検出タスクの学習がなされていないため、位置情報込みの物体検出には対応していません。このように、特定の業務タスクでどのVLMを導入するか検討する際は、各モデルがどのようなタスクに対して学習されているかを事前に確認することが重要です。この情報は特にOpenAIなどのクローズドモデルの場合、公開範囲が限定的です。技術報告書などで学習データの種類に関する記載があるQwen3のようなオープンモデルでも、具体的なデータセットの紹介は明示されていません。
実装と運用における制約
最高性能の VLM は、数百億から数千億規模のパラメータを有しており、前述のとおり入力ごとに複数回の反復が必要となります。従来のモデルがノートパソコンやスマートフォンなど低コストのエッジデバイスでも動作できるのに対し、これらの大規模モデルは高価なハードウェアに依存するため、本番環境での運用コストが大幅に増加する可能性があります。概念実証フェーズから実用フェーズへ移行する際に費用のギャップが生じる場合もあります。
画像処理における従来の非 VLM 系深層学習手法とは異なり、VLM は解析プロセスにおいてユーザーのプロンプトに基づきモデルを動作させます。これにより、タスク定義に一定の柔軟性が生まれる一方で、最適なプロンプトの設計が難しく、開発者は期待される成果に到達するための最適なプロンプト記述方法を模索する必要があります。この過程にはしばしば多くの時間を要します。
高性能なハードウェアを用いても、 VLM は一般的にタスク特化型の専用モデルと比べて処理速度が遅い傾向があります。実際、リアルタイム処理(例:毎秒30枚以上の画像)を要するケースでは、現状の VLM での実現が難しい場合も想定されます。したがって、モデル選定はプロジェクトの成否に直結する重要な要素であり、各プロジェクトの具体的な要件に応じて慎重に検討する必要があります。
サービスを通じてVLMにアクセスする場合
本番環境における VLM の運用や保守コストを効率的に管理するために、クラウドサービスを活用して VLM を利用することは、現実的かつ魅力的な選択肢となります。しかしながら、これらのサービスを利用する場合、処理されたデータが第三者に送信されることから、データの二次利用に対する保証が難しく、プライバシーリスクが生じる可能性がある点に十分留意する必要があります。
PoC止まりの課題を克服するためのアプローチ
これらの課題に対処するためには、モデル単体の性能評価にとどまらず、システム全体の設計および運用を見据えた統合的なアプローチが求められます。
具体的には、以下のような取組みが有用です。
- 出力構造を前提としたプロンプト設計および後処理の導入
- ユースケースに応じた評価データセットの設計と継続的な性能検証
- 複数モデルを組み合わせたパイプライン構築
- コストや遅延を考慮したアーキテクチャ設計
VLM時代の競争環境
VLMは多様な業務タスクにおいて高い性能を発揮するとともに、既存の分析ソフトウェアへ比較的容易に組み込めるという特長を有しています。そのため、これまで独自モデルによって確保されていた競争優位性は徐々に縮小しつつあります。
一方で、差別化要因が完全に失われるわけではありません。同一のタスクへVLMを適用する場合、主な競争力の源泉として以下の要素が挙げられます。同一タスクに対して VLM を適用する場合、主な差別化要素は以下の要素が挙げられます。
- モデルの選定(タスク固有の性能)
- VLM を最適に活用する方法(タスク定義やプロンプトエンジニアリング)への理解
- 学習および評価データの管理(データセットやパイプライン)
モデルアーキテクチャが標準化されつつあるなかで、各社のソリューションを差別化するポイントはデータに集約されつつあります。
- 高品質なデータの収集
- データの利便性・再利用性の向上
- 学習における合成データの活用
KPMGジャパンでは、PoCから本番運用への移行に伴うさまざまな課題に向き合うなかで、クライアントの機密データを日常的に取り扱い、分析・処理に関する豊富な実務経験を蓄積してきました。
もっとも、こうした機密データを言語モデルの訓練に直接利用することはできません。LLMには学習データ中の文章を高い精度で再現する可能性があることが知られており、匿名化を施した場合であっても、機密情報をモデル開発に取り込むことには慎重な検討が求められます。
その一方で、公開データの活用や合成データの生成、さらにはタスク設計上の工夫を組み合わせることで、実用レベルの性能を実現するための知見を培ってきました。また、データの取り扱いを通じて得られた洞察や専門知識は、さまざまな形で事業価値の創出に活用できます。
- ドメイン知識をタスク定義やプロンプトに反映し、念頭におくタスクへの最適化を図ること。
- 公開データから類似データセットをキュレーションし、モデルの学習コストを抑えつつ品質を高めること。
- 類似した特性を持つ合成データセットを生成し、本番環境により近い要件でモデルの性能を検証すること。
アドバイザリーライトハウスでは、ビジネス分析領域におけるVLMベースのソリューションを継続的に探索・評価しています。これまでOCR、顧客分析、データサニタイズなど幅広いテーマにVLMを適用してきました。
さらに、従来型の機械学習やコンピュータビジョン技術に関する研究開発にも長年取り組んでおり、その知見をVLMと組み合わせることで、特定の技術に依存しない中立的な視点から最適な解決策を検討できます。クライアント固有の課題や要件を踏まえたうえで、最も効果的なソリューションの評価・提案が可能であることが、私たちの強みです。
※文中の社名、商品名等は各社の商標または登録商標である場合があります。
参考資料
1 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. arXiv preprint arXiv:1706.03762. https://arxiv.org/abs/1706.03762
2 Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv preprint arXiv:2010.11929. https://arxiv.org/abs/2010.11929
3 Deitke, M., et al. (2024). Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models. arXiv preprint arXiv:2409.17146. https://arxiv.org/pdf/2409.17146
4 Yang, A., et al. (2025). Qwen3 Technical Report. arXiv preprint arXiv:2505.09388. https://arxiv.org/pdf/2505.09388
監修
KPMGアドバイザリーホールディングス
アドバイザリーライトハウス
アドバンスドアナリティクス&AIラボ テクノロジーマネジャー
小澤 友美
執筆
KPMGアドバイザリーホールディングス
アドバイザリーライトハウス
アドバンスドアナリティクス&AIラボ シニアテクノロジスト
Karvonen Tuukka