KaizanCheckBot_aiを用いた証憑改ざんの検知
あずさ監査法人開発のKaizanCheckBot_aiを用いた、PDF等電子ファイルの証憑改ざん検知の取組みについて解説します。
あずさ監査法人開発のKaizanCheckBot_aiを用いた、PDF等電子ファイルの証憑改ざん検知の取組みについて解説します。
開発の背景
コロナ禍を通じて監査関与先への訪問や出張は制限され、監査のリモート化が加速しました。そのため、監査証拠となる証憑の原本を監査するのではなく、PDF等の電子ファイルを使用するケースが増えています。電子ファイルは容易に作成・編集することが可能な分、改ざんのリスクが高く、かつ改ざんを肉眼で検知することが困難な場合もあります。それは、KPMG FASが提供する不正調査のサービスにおいて入手したPDF等の電子ファイルも同様です。
そのような、証憑の改ざんリスクに対応するために、KaizanCheckBot_aiは開発されました。電子ファイルに対し、画像処理技術やプロパティ情報の活用などを通じて、証憑改ざんの兆候検知を支援します。
KaizanCheckBot_aiの概要
改ざん手法にはさまざまなパターンが考えられるため、KaizanCheckBot_aiでは、それらに対応する検知手法を対象のファイルに複数適用し、改ざんのリスクが高い箇所を特定します。具体的には、検知対象の電子ファイルをKaizanCheckBot_aiに投入すると、肉眼では判別困難な編集作業の痕跡を浮かび上がらせるための画像処理や、ファイルに付されている日付等のプロパティ情報の抽出および検証を行います。監査人はKaizanCheckBot_aiの処理結果をもとに、より詳細な調査につなげていきます。
改ざん検知手法に関連する取組み
あずさ監査法人の改ざん検知に関連する取組みの一部を紹介します。
PDFの構造解析技術を使い、変更の痕跡を発見
PDFは文書の表示や共有に広く使用されるフォーマットであり、テキスト、画像、図表などの要素を含むことができます。
PDFの構造解析は、PDFファイルの内部構造や要素を解析するプロセスを指し、テキストの抽出、ページレイアウトの解析、フォームデータの抽出などによりさまざまな内容を把握することができます。例えばテキストや図などがページ内のどの位置に存在しているかが分かります。
この技術を応用することで、例えばPDF上のコメント機能などを使い、既存の情報(数値や日付、取引先名など)を上書きした改ざん(図1)の検知に有効な可能性があります。改ざんで利用されたコメント機能のテキストボックスと、元々あった記載内容や記載場所の比較を通じて、変更されたという痕跡を発見できる可能性があります。
図1 コメント機能のテキストボックスを使った改ざんの検知イメージ
2.文字認識や画像処理技術を使った違和感の発見
PDFの編集機能などを利用し、サインや数値がコピーされ、金額の水増しなどの記載内容の改ざんが行われるリスクがあります。
KaizanCheckBot_ai では文字認識技術・パターンマッチング・文字が持つさまざまな特徴量を使い、類似度を算出・比較し、改ざんされた箇所の検知を実施しています。
図2は、数値をコピーして金額の水増しを行った改ざんを発見するイメージ図です。
図2 コピー&ペースト箇所の検知イメージ
3.電子署名による改ざん有無や改ざん情報の検知
電子署名のデータには、署名した時点のハッシュ値が含まれているため、これを確認することで、改ざんの有無を検知できるようになります。例えば、電子署名後にPDFファイルのデータを改ざんすると、ハッシュ値が署名時点のハッシュ値と合致しなくなるため、変更を検知することができます。
すべてのPDFファイルの電子署名を人力で確認することは非常に手間がかかり、変更を見落とす可能性がありますが、KaizanCheckBot_ai を使うことにより大量のPDFデータについても漏れなくチェックすることが可能です。
また、タイムスタンプや署名者の情報を解析することにより、意図しない作成者による作成など、通常と異なるプロセスで作成された書類を検出することが可能です。
4.機械学習を使った違和感の発見
世の中にはさまざまな機械学習モデルが公開されており、機械学習モデルを応用することで、より精度の高い改ざん検知モデルを作成できます。
機械学習モデルを応用する1つの手段として考えられるのが、転移学習やファインチューニングなどに代表されるような、既存モデルに追加で学習させ、改ざん検知に特化させる手法です。
例えばノイズの検知モデルや物体の形状比較モデルなどに、あずさ監査法人内の知見をもとに用意した改ざんケースを追加で学習させることで、改ざん検知に特化したモデルが作成されます。
本技術は電子ファイル上での改ざんだけでなく、電子ファイルになる前時点での書類への改ざん((1)紙面での修正液・修正テープによる文字の削除、(2)紙面上で文字を切り貼りすることによる、文字の複製など)にも有効な可能性があります。
5.フォント解析技術を使った違和感の発見
改ざん箇所をそれ以外の箇所と違うフォントで改ざんした場合、機械学習やPDF構造解析を用いたフォント解析技術を使いアラートを出すことができます。
具体的な手法としては、PDF上の文字をフォント解析し、各文字のフォントを判別します。その際に、改ざんされた文字のフォントが、他の文字のフォントと異なる場合にアラートを出すことができます。
図3は、アラートが出るイメージ図です。赤枠内がメイリオ、青枠内がゴシックになっている場合、各数値のフォントが一致するかをモデルにより判定し、一致していない場合アラートを出します。
図3 フォントが異なる箇所の検知イメージ
執筆者
あずさ監査法人
Digital Innovation 事業部