第4回 AIシステムに対する攻撃とその対策
第3回では、AIシステム特有のリスクや想定される攻撃の概要などについて解説しました。 第4回となる本稿では、AIシステムに対する攻撃について、考慮すべき観点や、攻撃や対応策の具体例について解説します。
第4回となる本稿では、AIシステムに対する攻撃について、考慮すべき観点や、攻撃や対応策の具体例について解説します。
第3回では、AIシステム特有のリスクや想定される攻撃の概要などについて解説しました。
第4回となる本稿では、AIシステムに対する攻撃について、考慮すべき観点や、攻撃や対応策の具体例について解説します。
1.AIシステムへの攻撃の概要
AIシステムへの攻撃を考える際に、攻撃者の知識やアクセスしてくる経路などにより攻撃内容が異なることを理解しておく必要があります。
例えば、米国の非営利組織であるMITRE Corporationによる、AIシステムに特化したサイバー脅威や攻撃手法に対するフレームワーク「MITRE ATLAS(Adversarial Threat Landscape for Artificial-Intelligence Systems)」では、攻撃の経路を考慮する際の観点として、以下の3つが解説されています。
1-1.AIシステムに関する知識(System Knowledge)
攻撃者がどの程度AIシステムに対して知識があるか。
- モデルアーキテクチャ、トレーニングデータなどにアクセスできる状況(ホワイトボックス)
- モデルの内部情報が不明で、攻撃が入力と出力情報に制限される状況(ブラックボックス)
出典:KPMG
1-2.AIアクセスポイント(AI Access Points)
物理領域、デジタル領域のどちらかを対象とするか。
- 実世界の情報をデジタル化される前に攻撃(物理領域)
例)センサーで読み取る対象(標識など)に、AIが誤判定するよう細工をする
- 情報がデジタル化された後の攻撃(デジタル領域)
例)API経由でクエリ送信し、AIシステムの応答を観察する
出典:KPMG
1-3.AIアクセス時間(AI Access Time)
AIシステム作成のどの段階における攻撃か。
- データ収集と処理、モデルの訓練、検証など、デプロイまでの段階(訓練フェーズ)
- デプロイされた後、ユーザーのクエリに対し、訓練された内容に従い応答する段階(推論フェーズ)
出典:KPMG
2.攻撃の例および対応策
攻撃例やその対策の具体例について、今回は、「機械学習システムセキュリティガイドライン」に記載されている、3つのAIシステム特有のリスクごとに解説します。
AIシステム特有のリスク
(1)モデルやシステムの誤動作
攻撃者がモデルへの入力に細工をしたり、訓練データや訓練モデルに細工をしたりすることにより、モデルが誤作動を引き起こすリスク。
出典:KPMG
(2)モデルの窃取
攻撃者により、モデルのコピーや近い性能のモデルが作成されてしまうリスク。
出典:KPMG
(3)訓練データの窃取
モデルの訓練データやその一部を、攻撃者に推測されるリスク。
出典:KPMG
攻撃例および対応策
(1)モデルやシステムの誤動作
画像データに、人間の目では判別が難しい細工を施し、AIシステムを誤判断させるといった攻撃があります。
例えば、自動運転システムにおいて、標識に特殊なシールを貼り、「止まれ」を「進め」と誤認識させる、また入力プロンプトに細工をして任意のコードを実行させ、情報を漏洩させるなどの攻撃が考えられます。
具体的な攻撃や対策の例
攻撃 | 対策 | |
---|---|---|
推論時のモデル・システムへの入力等によって行う攻撃 | 回避攻撃 例えば、入力データに人間では判別できないわずかなノイズを加え、モデルを誤判断させる敵対的サンプル攻撃がある。 |
|
プロンプトインジェクション 例えば、利用者のプロンプト入力やWebページなどの外部情報からAIシステムが入力を受け取る際に、入力に対して細工し、機密情報の漏洩やAIシステム内の任意コマンドを実行させるなど。 |
|
|
出力を利用した攻撃 例えば、AIシステムが出力したSQLクエリやコマンドが実行され、SQLインジェクションや、任意のコードが実行されるなど。 |
|
|
過剰な権限付与に起因する攻撃 例えば、AIシステムのプラグインがシステム上必要な特定のコマンド以外を実行できることで、情報漏洩や権限昇格が行われてしまうなど。 |
|
|
システムプロンプトに対する攻撃 例えば、システムプロンプトに含まれているデータベースへの認証情報のようなセンシティブな情報が、攻撃者により抽出、利用され、情報漏洩するなど。 |
|
|
訓練データ・訓練モデルを汚染する攻撃 | ポイズニング攻撃 例えば、特定のラベルを別のラベルに誤判定させる攻撃や、細工したデータでAIモデルにバックドアを設置し、条件に合致する入力(トリガー)により誤判断させるバックドア攻撃。 |
|
(2)モデルの窃取
AIモデルの出力結果からモデルの内部構造を推測し、同等のモデルを模倣する攻撃。内部構造の例として、モデルの訓練で使用された設定情報の一部であるハイパーパラメータや層の数など、モデルのアーキテクチャなどが挙げられます。
このような攻撃により、莫大な費用をかけて開発したAIモデルが複製される、また複製されたモデルが第三者により悪用されるといった被害が考えられます。
具体的な攻撃や対策の例
攻撃 | 対策 | |
---|---|---|
モデルやシステムへの入力によって行う攻撃 | モデル抽出攻撃 AIシステムへの入力に対する出力を分析し、同等の性能をもつモデルを作成する攻撃。 |
|
(3)訓練データの窃取
AIモデルの出力結果から、モデルの訓練に使用したデータを推測する攻撃。
このような攻撃により、訓練データに含まれていた個人情報や機密情報が漏洩するといった被害が考えられます。
具体的な攻撃や対策の例
攻撃 | 対策 | |
---|---|---|
モデルやシステムへの入力による攻撃 | モデルインバージョン攻撃 AIシステムへの入力に対する出力を分析し、訓練データに含まれる情報を復元する攻撃。 |
|
メンバーシップ推測攻撃 AIシステムへの入力に対する出力を分析し、特定のデータがモデルの訓練データに含まれているかを特定する攻撃。 |
|
出典:機械学習システムセキュリティガイドライン、OWASP Top 10 for LLM Applications 2025を参考にKPMGコンサルティングにて内容を整理
OWASP Top 10 for Large Language Model Applications | OWASP Foundation
これらAIシステムへの攻撃の対応策は、一般的なセキュリティ対策と同様に、攻撃が発生した場合のインパクトの大きさや攻撃の実現可能性などを踏まえて検討されます。
例えば、ホワイトボックス攻撃を行うには、モデルアーキテクチャ、トレーニングデータなどにアクセスできるような状況が必要となるため、推論段階の入力と出力を利用した推論のみに基づくブラックボックス攻撃と比較して難易度が高く、攻撃の実現可能性は低いと判断されます。
また、対応策の検討にあたっては、導入しようとするAIシステムについて、下記に示すような個別の情報や状況を精査する必要があります。
例)
- 訓練データやモデル、関連システムなど、関連する資産の洗い出し
- 開発者や利用者、データ提供者など、資産を取り扱う関係者の特定
- 資産や関係者、AIシステム特有のリスク(モデルやシステムの誤動作、モデルの窃取、訓練データの窃取)を踏まえた被害の分析
- 攻撃の実現可能性の検討、対応有無の判断
- 対策実施、モニタリング
(システム開発時の実装や、デプロイ後のモニタリングによる検知、対応)
3.まとめ
連載第1回では、ここ数年における生成AIの進化や、AIに関わるリスクや各国の規制の状況、本連載の対象となるAIシステムに関わるセキュリティ対策の概要について解説しました。
第2回では、AIのセキュリティリスクの具体例として、ハルシネーション、機密情報の漏えい、著作権侵害など、AIシステムの利用者側目線での対応策について扱いました。
また、第3、4回では、AIシステム特有のリスクや、AIシステムに対する攻撃について、AIサービスの開発、提供者側の目線で、想定される攻撃手法とその対策について解説しました。本稿で見てきたように、従来のサイバーセキュリティ対策に加え、AIシステム特有の脆弱性や攻撃を踏まえた対応が必要となってきます。また、対策にあたっては、攻撃が成功した場合のインパクトの大きさや、攻撃の実現可能性などを踏まえた検討が必要となります。
最終回となる第5回では、これまでの内容を踏まえ、AIシステムガバナンスの勘所など、AIシステムのセキュリティを守るための考え方について総括していきます。
執筆
KPMGコンサルティング
マネジャー 中島 隆雄