AISIのAIセーフティに関する評価観点ガイドとレッドチーミング手法ガイドの解説
日本AIセーフティインスティテュートが公表した AIセーフティに関する評価観点10項目及びレッドチーミング手法ガイドの解説
日本AIセーフティインスティテュートが公表した AIセーフティに関する評価観点10項目及びレッドチーミング手法ガイドの解説
2024年9月に、日本AIセーフティ・インスティテュート(以下「AISI」という)がAIセーフティに関する評価観点10項目、およびAIセーフティの評価手法の1つであるレッドチーミングについてのガイドを公表しました。AISIは、2023年12月のAI戦略会議において岸田元総理大臣の設立表明の元で、2024年2月に発足したAIの安全性に関する評価手法や基準の検討・推進を行うための機関です。本文ではAISIが公表した「AIセーフティに関する評価観点ガイド」および「AIセーフティに関するレッドチーミング手法ガイド」について解説します。
目次
1.「AIセーフティに関する評価観点ガイド」及び「AIセーフティに関するレッドチーミング手法ガイド」の公表の背景
AI技術の進展、特に生成AIの急速の進化により、AIを活用したサービスは幅広い消費者層に間で普及されるようになってきました。それに伴い、AIの悪用や誤用、不正確な出力等の懸念が大きくなっています。日本政府はこれまでに、安全・安心で信頼できるAIを実現するために、広島AIプロセスを主導し、「高度なAIシステムを開発する組織向けの広島プロセス国際指針」※¹および「高度なAIシステムを開発する組織向けの広島プロセス国際行動規範」※²を取りまとめました。また、2024年4月に、総務省と経済産業省は共同で「AI事業者ガイドライン(第1.0版)」を公表し、AIの安全・安心な活用を促進するために、AIの開発者、提供者、利用者すべてを対象に、AIガバナンスにおいて統一な指針を示してきています。
AISIは、「AI事業者ガイドライン(第1.0版)」を参考にしたうえで、海外の動向に合わせて、AIシステムの開発や提供に携わる者を対象に、AIセーフティ評価を実施する際に参考できる基本的な考え方を提供する目的で「AIセーフティに関する評価観点ガイド」(以下「評価観点ガイド」という)を公表しました。また、各国が進んで検討しているレッドチーミング手法(AI システムの開発や提供に携わる者が対象の AI システムに施したリスクへの対策を、攻撃者 (AI システムの悪用や破壊を意図する者)の視点から評価する手法)に関して基本的な考慮事項を示すことを目的とした「AIセーフティに関するレッドチーミング手法ガイド」(以下「レッドチーミング手法ガイド」という)を公表しました。
2.AIセーフティの評価観点10項目
「評価観点ガイド」では、LLM(大規模言語モデル)を構成要素とするAIシステムを評価のスコープに、AIセーフティに関する評価観点10項目を提示し、それぞれをAIセーフティの重要要素である「人間中心」、「安全性」、「公平性」、「プライバシー保護」、「セキュリティ確保」、「透明性」との関係をマッピングしています。評価観点10項目は、以下になります。
- 有害情報の出力制御
- 偽誤情報の出力・誘導の防止
- 公平性と包摂性
- ハイリスク利用・目的外利用への対処
- プライバシー保護
- セキュリティ確保
- 説明可能性
- ロバスト性
- データ品質
- 検証可能性
図表1 AIセーフティに関する評価観点10項目
また、評価を通して目指すべき状態(有効な対策が実施されている場合の姿)は図表2に示されています。
図表2 評価を通して目指すべき状態
「評価観点ガイド」の本文では、上記の内容以外、評価観点ごとに、「想定されるリスクの例」と「評価項目例」も記載されているため、評価の実践時に参考できます。
3.AIセーフティの評価実施者および評価実施時期
評価実施者については、「評価観点ガイド」では以下のポイントを示しています。
- 評価の主な実施者は、AI開発および提供における開発・提供管理者
- いずれの役割の者が実施するかはAIシステムのライフサイクルによって異なる
- 客観的な評価やシステム開発・提供の意思決定の独立性を持たせるために、開発・提供に直接関わらない自組織または専門家やサードパーティによる評価が有効
図表3 AIセーフティの評価実施者
また、評価時期に関しては、開発・提供・利用の3フェーズを基に、次のとおりにポイントを示しています。
- AIセーフティの評価時期は、LLMシステムの開発・提供・利用フェーズにおいて、合理的な範囲かつ適切なタイミングで実施
- 評価は一度のみではなく、繰り返し実施する
- 開発・提供・利用フェーズに応じて、評価対象となる範囲が異なる
図表4 AIセーフティの評価時期
4.AIセーフティの評価手法
「評価観点ガイド」の最後では、AIセーフティ評価における手法として、技術的評価とマネジメント的評価があり、技術的評価は、主にAIシステムで用いられるデータや入出力、システム構成、各種設定などの技術的観点についての評価であり、マネジメント的評価は、主にAIセーフティに関する事業者全体での取組方針や、事業者内で整備された規定等に関する評価を行うとしています。
図表5 AIセーフティの評価手法
ツールによる評価は、AIセーフティ評価を効率的に実施することが出来る一方、AIセーフティ評価の観点の全てをツールによって自動実施することは難しいため、レッドチーミング等、その他の手法と組み合わせることが重要です。
マネジメント的評価は、主にAI セーフティに関する事業者全体での取組方針や、事業者内で整備された規定等に関する評価を行いますが、組織内のトレーニングや演習等を通しAIセーフティの維持状態を評価することや、ドキュメントレビューにより、AIセーフティに関連する文書等が適切に準備されているかを評価することも含まれます。マネジメント的評価の詳細は、「AI事業者ガイドライン(第1.0版)」やISO/IEC 42001:2023を参照できます。
5.レッドチーミングによるAIセーフティの評価
上述したAIセーフティ評価手法の中の1つである「レッドチーミングによる評価」は、各国で進んできており、AISIは、レッドチーミングの手法や実施手順を取りまとめた「レッドチーミング手法ガイド」を公表しています。
レッドチーミングとは、攻撃者がどのようにAIシステムを攻撃するかの観点で、AIセーフティへの対応体制および対策の有効性を確認する評価手法のことを指し、AIセーフティを維持または向上させることを目的とするものです。
AIシステムを安全・安心に利用できるために、AIシステムの持つさまざまな脆弱性を明らかにし、対策を講じることが重要です。特に現在LLMシステムの大規模化が加速し、機能の高度化・多様化が急速に進んでいるなか、最新の攻撃手法やトレンドを把握し、実際のシステム構成や利用環境でのリスクを想定したうえで継続的にレッドチーミングを実施することで、見落としがちな対策不備等に対処できるようになります。
6.レッドチーミングの種類とLLMシステムへの代表的な攻撃手法
レッドチーミングは、攻撃計画・実施者が保有する前提知識の有無・程度によって、ブラックボックステスト(内部構造等の情報を未知としてレッドチーミングを行う)、ホワイトボックステスト(内部構造等の情報を既知としてレッドチーミングを行う)、グレーボックステスト(内部構造等の情報を一部既知としてレッドチーミングを行う)に分類できます。ほかには、実施する環境やレッドチーミング実施において攻撃シグネチャを試行する方法によって分類できます。
図表6 レッドチーミングの分類
また、AIへの攻撃手法について、ガイド本文の適用対象であるLLMシステムに対する代表的な攻撃手法は図表7のとおりですが、これらの手法の概要を把握したうえで、レッドチーミングの実施を検討することが望ましいです。
図表7 LLMシステムに対する代表的な攻撃手法
7.レッドチーミングの実施体制と実施時期
レッドチーミングの直接な実施者は、主に組織内のレッドチーム内の要員やサードパーティです。実施体制は、攻撃計画・実施を行う者とAIシステムに関連する有識者からなるレッドチームが、対象AIシステムの開発・提供管理者と情報連携し、経営層もしくはこれに準ずる責任を持つその他の関連ステークホルダーの下でレッドチーミングを行うことが望ましいです。
図表8 レッドチーミングの実施体制
レッドチーミングの実施時期は、リリース/運用開始前の実施と運用開始後の実施がありますが、初回実施する際は、対象とするAIシステムのリリース/運用開始前までに実施することを基本とします。また、レッドチーミングの実施結果によるAIシステムの開発・提供上の手戻りを最小限に防ぐために、AIシステムの企画段階からレッドチームが攻撃者の目線でリスク分析を行うことが推奨されます。リリース/運用開始前の実施範囲については、特定のサブシステムや特定の攻撃等に限定せずに、対象とするAIシステムに対して包括的に実施することが望ましいです。
新たな脅威や想定外の問題に対処できるために、レッドチーミングは1度実施して完了とせずに、運用開始後に定期的に実施することが有効です。運用開始後の実施範囲は、セキュリティ監査のように、サブシステム毎に分割して順に実施し、一巡後に全体を包括的に実施する方式や、懸念されるシナリオや脅威、特定の攻撃方法等に絞って実施する方式などが考えられます。
図表9 レッドチーミングの実施時期
8.レッドチーミングの一般的な実施工程
リリース/運用開始前に包括的にレッドチーミングを実施する場合、「実施計画の策定と実施準備」、「攻撃計画・実施」、「結果のとりまとめと改善計画の策定」という3つの工程が想定されます。各工程の実施ステップと内容は図表10のとおりです。
図表10 レッドチーミングの一般的な実施工程
第1工程の「実施計画の策定と実施準備」では、レッドチームを発足させたうえで実施計画を策定し、レッドチーミング実施に必要な事前準備を行い、第2工程の「攻撃計画・実施」では、リスクシナリオや攻撃シナリオの作成、攻撃シナリオの実施、実施中の記録取得、実施後の処理を行います。第3工程の「結果のとりまとめと改善計画の策定」では、レッドチーミングの結果指摘された事項に対して改善を行い、実施結果を関係者がレビューした後、改善計画を策定・実施し、改善策のフォローアップを行います。
9.まとめ
以上、本文では日本AIセーフティ・インスティテュート(AISI)が2024年9月に公表した「AIセーフティに関する評価観点ガイド」と「AIセーフティに関するレッドチーミング手法ガイド」の内容を取りまとめました。いずれのガイドも、AI開発者・AI提供者を対象読者と想定しており、特に開発・提供管理者および事業執行責任者向けに、AIセーフティを評価する際の評価項目と、評価手法の1つであるレッドチーミングについての実施手順を包括的に記載しています。
AIセーフティがますます注目される今、各事業者は自社で提供しているAIサービスに対し、責任をもって、安心・安全なAI活用の推進を手助けすることが期待されます。その際、日本政府、各研究機関が公表している法規制やガイドライン等を活用し、自社のAIガバナンス体制を整備することを推奨します。
KMPGジャパンは、「KPMG Trusted AI」フレームワークを導入し、日本国内をはじめとした各国政府や公的機関が発行する指針・ガイドライン、進展する法制化動向等をアドバイザリーに取り入れ、企業のAIガバナンス構築を支援します。AIの活用・導入を加速する際に、先進的な技術が複雑性とリスクをもたらす可能性がある状況において、「KPMG Trusted AI」は責任ある倫理的な方法でAI戦略とソリューションを設計、構築、展開、使用するための戦略的アプローチとフレームワークであり、企業価値の向上に貢献します。
KPMGジャパン、AIの積極的な利活用に欠かせないAIガバナンス構築を支援 - KPMGジャパン
AIガバナンス-KPMG Trusted AI- - KPMGジャパン
※1:総務省・広島AIプロセス成果文書「高度なAIシステムを開発する組織向けの広島プロセス国際指針」
※2:総務省・広島AIプロセス成果文書「高度なAIシステムを開発する組織向けの広島プロセス国際行動規範」
監修
あずさ監査法人
Digital Innovation部
宇宿 哲平
近藤 純也
執筆
あずさ監査法人
Digital Innovation部
王 雪竹
須崎 公介