第4回 AIシステムに対する攻撃とその対策

第3回では、AIシステム特有のリスクや想定される攻撃の概要などについて解説しました。 第4回となる本稿では、AIシステムに対する攻撃について、考慮すべき観点や、攻撃や対応策の具体例について解説します。

第4回となる本稿では、AIシステムに対する攻撃について、考慮すべき観点や、攻撃や対応策の具体例について解説します。

第3回では、AIシステム特有のリスクや想定される攻撃の概要などについて解説しました。

第4回となる本稿では、AIシステムに対する攻撃について、考慮すべき観点や、攻撃や対応策の具体例について解説します。

1.AIシステムへの攻撃の概要

AIシステムへの攻撃を考える際に、攻撃者の知識やアクセスしてくる経路などにより攻撃内容が異なることを理解しておく必要があります。

例えば、米国の非営利組織であるMITRE Corporationによる、AIシステムに特化したサイバー脅威や攻撃手法に対するフレームワーク「MITRE ATLAS(Adversarial Threat Landscape for Artificial-Intelligence Systems)」では、攻撃の経路を考慮する際の観点として、以下の3つが解説されています。

1-1.AIシステムに関する知識(System Knowledge)

攻撃者がどの程度AIシステムに対して知識があるか。

  • モデルアーキテクチャ、トレーニングデータなどにアクセスできる状況(ホワイトボックス)
  • モデルの内部情報が不明で、攻撃が入力と出力情報に制限される状況(ブラックボックス)
第4回 AIシステムに対する攻撃とその対策図表01

出典:KPMG

1-2.AIアクセスポイント(AI Access Points)

物理領域、デジタル領域のどちらかを対象とするか。

  • 実世界の情報をデジタル化される前に攻撃(物理領域)

例)センサーで読み取る対象(標識など)に、AIが誤判定するよう細工をする

  • 情報がデジタル化された後の攻撃(デジタル領域)

例)API経由でクエリ送信し、AIシステムの応答を観察する

第4回 AIシステムに対する攻撃とその対策図表02

出典:KPMG

1-3.AIアクセス時間(AI Access Time)

AIシステム作成のどの段階における攻撃か。

  • データ収集と処理、モデルの訓練、検証など、デプロイまでの段階(訓練フェーズ)
  • デプロイされた後、ユーザーのクエリに対し、訓練された内容に従い応答する段階(推論フェーズ)
第4回 AIシステムに対する攻撃とその対策図表03

出典:KPMG

2.攻撃の例および対応策

攻撃例やその対策の具体例について、今回は、「機械学習システムセキュリティガイドライン」に記載されている、3つのAIシステム特有のリスクごとに解説します。

AIシステム特有のリスク

(1)モデルやシステムの誤動作

攻撃者がモデルへの入力に細工をしたり、訓練データや訓練モデルに細工をしたりすることにより、モデルが誤作動を引き起こすリスク。

第4回 AIシステムに対する攻撃とその対策図表04

出典:KPMG

(2)モデルの窃取

攻撃者により、モデルのコピーや近い性能のモデルが作成されてしまうリスク。

第4回 AIシステムに対する攻撃とその対策図表05

出典:KPMG

(3)訓練データの窃取

モデルの訓練データやその一部を、攻撃者に推測されるリスク。

第4回 AIシステムに対する攻撃とその対策図表06

出典:KPMG

攻撃例および対応策

(1)モデルやシステムの誤動作

画像データに、人間の目では判別が難しい細工を施し、AIシステムを誤判断させるといった攻撃があります。
例えば、自動運転システムにおいて、標識に特殊なシールを貼り、「止まれ」を「進め」と誤認識させる、また入力プロンプトに細工をして任意のコードを実行させ、情報を漏洩させるなどの攻撃が考えられます。

具体的な攻撃や対策の例

攻撃 対策
推論時のモデル・システムへの入力等によって行う攻撃

回避攻撃
機械学習システムへの入力に細工を施し、システムが意図していない動作をさせる。

例えば、入力データに人間では判別できないわずかなノイズを加え、モデルを誤判断させる敵対的サンプル攻撃がある。

  • ノイズを含むデータを使用してモデルを訓練し、攻撃に対する耐性を向上させる
  • 入力データのノイズを検知するアルゴリズムの導入など

プロンプトインジェクション
利用者のプロンプトを細工し、意図しないシステムの挙動や出力をさせる。

例えば、利用者のプロンプト入力やWebページなどの外部情報からAIシステムが入力を受け取る際に、入力に対して細工し、機密情報の漏洩やAIシステム内の任意コマンドを実行させるなど。

  • 入力された内容をチェックする(想定されるフォーマットや文字以外の入力の検知、除去など)
  • AIシステムへのアクセス権限を必要最小限にするなど

出力を利用した攻撃
AIシステムの出力が後続の処理に影響を与えるような攻撃。

例えば、AIシステムが出力したSQLクエリやコマンドが実行され、SQLインジェクションや、任意のコードが実行されるなど。

  • 出力内容のエンコード(不正なコード実行を防止するためのエンコード処理の実施など)
  • AIシステムの出力やログの監視による異常検知など

過剰な権限付与に起因する攻撃
AIシステムに付与された過剰な機能や権限を利用し、AIシステムへの入力やそこから実行されるエージェントの処理を操作して、本来意図されていないコマンドを実行させる。

例えば、AIシステムのプラグインがシステム上必要な特定のコマンド以外を実行できることで、情報漏洩や権限昇格が行われてしまうなど。

  • エージェントを呼び出せる機能を必要最小限にする。
  • 入力、出力された内容をチェックする(例えば、不正なコード実行を防止するためのエンコード処理の実施)など

システムプロンプトに対する攻撃
モデルの動作内容に関わる設定情報であるシステムプロンプトに、システムの権限に関する情報や認証情報などのセンシティブな情報が含まれている場合、これらの情報の漏洩により想定外の処理を実施させる。

例えば、システムプロンプトに含まれているデータベースへの認証情報のようなセンシティブな情報が、攻撃者により抽出、利用され、情報漏洩するなど。

  • システムプロンプトからセンシティブな情報を分離する(システムプロンプトに直接埋め込まないなど)
  • AIシステムの出力やログの監視による異常検知など
訓練データ・訓練モデルを汚染する攻撃

ポイズニング攻撃
攻撃者が細工したデータやモデルを、モデルの訓練データやモデルに混入させ、誤動作させる。

例えば、特定のラベルを別のラベルに誤判定させる攻撃や、細工したデータでAIモデルにバックドアを設置し、条件に合致する入力(トリガー)により誤判断させるバックドア攻撃。

  • 学習データをフィルタリング、監視し、異常なデータや不正なデータを検出、除去する。
  • デプロイされたモデルやトレーニングデータへのアクセスを、承認されたユーザーのみに制限するなど

(2)モデルの窃取

AIモデルの出力結果からモデルの内部構造を推測し、同等のモデルを模倣する攻撃。内部構造の例として、モデルの訓練で使用された設定情報の一部であるハイパーパラメータや層の数など、モデルのアーキテクチャなどが挙げられます。

このような攻撃により、莫大な費用をかけて開発したAIモデルが複製される、また複製されたモデルが第三者により悪用されるといった被害が考えられます。

具体的な攻撃や対策の例

攻撃 対策
モデルやシステムへの入力によって行う攻撃 モデル抽出攻撃
AIシステムへの入力に対する出力を分析し、同等の性能をもつモデルを作成する攻撃。
  • モデルへのクエリの数を制限し、大量クエリの送信によるモデルの再現を防止するなど

(3)訓練データの窃取

AIモデルの出力結果から、モデルの訓練に使用したデータを推測する攻撃。
このような攻撃により、訓練データに含まれていた個人情報や機密情報が漏洩するといった被害が考えられます。

具体的な攻撃や対策の例

攻撃 対策
モデルやシステムへの入力による攻撃 モデルインバージョン攻撃
AIシステムへの入力に対する出力を分析し、訓練データに含まれる情報を復元する攻撃。
  • 勾配情報にノイズを加えて、正確な勾配情報の取得を困難にする。
  • モデルへのアクセスを承認されたユーザーのみに制限するなど
メンバーシップ推測攻撃
AIシステムへの入力に対する出力を分析し、特定のデータがモデルの訓練データに含まれているかを特定する攻撃。
  • モデルの出力にノイズを加え、攻撃者による特定を困難にする(差分プライバシーの利用)など

出典:機械学習システムセキュリティガイドライン、OWASP Top 10 for LLM Applications 2025を参考にKPMGコンサルティングにて内容を整理
OWASP Top 10 for Large Language Model Applications | OWASP Foundation

これらAIシステムへの攻撃の対応策は、一般的なセキュリティ対策と同様に、攻撃が発生した場合のインパクトの大きさや攻撃の実現可能性などを踏まえて検討されます。

例えば、ホワイトボックス攻撃を行うには、モデルアーキテクチャ、トレーニングデータなどにアクセスできるような状況が必要となるため、推論段階の入力と出力を利用した推論のみに基づくブラックボックス攻撃と比較して難易度が高く、攻撃の実現可能性は低いと判断されます。

また、対応策の検討にあたっては、導入しようとするAIシステムについて、下記に示すような個別の情報や状況を精査する必要があります。

例)

  • 訓練データやモデル、関連システムなど、関連する資産の洗い出し
  • 開発者や利用者、データ提供者など、資産を取り扱う関係者の特定
  • 資産や関係者、AIシステム特有のリスク(モデルやシステムの誤動作、モデルの窃取、訓練データの窃取)を踏まえた被害の分析
  • 攻撃の実現可能性の検討、対応有無の判断
  • 対策実施、モニタリング
    (システム開発時の実装や、デプロイ後のモニタリングによる検知、対応)

3.まとめ

連載第1回では、ここ数年における生成AIの進化や、AIに関わるリスクや各国の規制の状況、本連載の対象となるAIシステムに関わるセキュリティ対策の概要について解説しました。

第2回では、AIのセキュリティリスクの具体例として、ハルシネーション、機密情報の漏えい、著作権侵害など、AIシステムの利用者側目線での対応策について扱いました。

また、第3、4回では、AIシステム特有のリスクや、AIシステムに対する攻撃について、AIサービスの開発、提供者側の目線で、想定される攻撃手法とその対策について解説しました。本稿で見てきたように、従来のサイバーセキュリティ対策に加え、AIシステム特有の脆弱性や攻撃を踏まえた対応が必要となってきます。また、対策にあたっては、攻撃が成功した場合のインパクトの大きさや、攻撃の実現可能性などを踏まえた検討が必要となります。

最終回となる第5回では、これまでの内容を踏まえ、AIシステムガバナンスの勘所など、AIシステムのセキュリティを守るための考え方について総括していきます。

執筆

KPMGコンサルティング
マネジャー 中島 隆雄

お問合せ