【連載】AIを活用した不正会計リスク検知モデルの開発―青山学院大学との共同研究 (第1回)

あずさ監査法人は、青山学院大学と共同で、AIを用いた不正会計リスクの検知モデルについて研究しています。本稿では、青山学院大学の矢澤憲一教授をお招きし、あずさ監査法人 Digital Innovation本部の宇宿哲平パートナーとの対談形式で、この研究の背景や概要を紹介します。

あずさ監査法人はAIを用いた不正会計リスクの検知モデルを青山学院大学と共同で研究しています。対談の連載第1回では、この研究の背景や概要を紹介します。

AI技術が目覚ましい進展を遂げる今日、先端技術の応用が不正会計リスクの検知においても期待されています。不正会計は企業や社会に深刻な損失をもたらし、金融市場の信頼を揺るがします。また、会計監査において不正を発見することへの期待も高まっています。そのため、不正会計をけん制するためには、効果的な検知モデルの構築が求められています。近年では財務データだけでなく、企業が開示するテキストデータも不正会計リスクの検知に有効であることが研究され、特に自然言語処理や機械学習技術の応用が期待されています。

青山学院大学とあずさ監査法人はこの期待に応え、AIを用いた不正会計リスクの検知モデルを共同研究しています。この取組みは、AIを研究と実務に応用する観点、およびアカデミズムと実務の連携という観点からも注目されています。この取組みについて、青山学院大学の矢澤憲一教授をお招きし、あずさ監査法人の宇宿哲平パートナーと対談した内容を、3回シリーズで紹介します。第1回では、この研究の背景や概要について焦点をあてます。

お問合せ

「これまでと異なるリスク検知の可能性を感じた」~大学と監査法人による共同研究のきっかけ

矢澤氏:私はこれまで主に会計、監査、ガバナンスに関する実証研究を行ってきました。一方、コロナ禍の前後から、テキストマイニングやAI(機械学習)といった新しいテクノロジーを用いた研究アプローチにも挑戦してきました。

会計研究において、AI(機械学習)は主に3つのフィールドで用いられています。将来パフォーマンス(業績と株価)の予測、リスクや見積りの評価、そして不正会計の検知です。特に、不正会計の検知については、財務データだけでなく、非財務(テキスト)データを用いた研究アプローチが有効だと考えられてきました。

日本での不正会計の検知に関する研究を調査していたところ、宇宿さんたちが取り組まれていた不正リスク検知モデルの研究を発見しました。当初は研究の概要をお聞きできればいいかな、という比較的軽い気持ちでお会いしたのですが、お互いに共通の問題意識を持っていることがわかり、"では一緒にやりましょう"という流れになりました。

宇宿:あずさ監査法人では、これまで財務情報と非財務データの一部に含まれる構造化データ(特定の形式で整理されたデータ)を活用した不正リスク検知モデルを開発し、法人内でも展開してきました。一方で、過去の不正事例のなかには、たとえば有価証券報告書内の文章など、開示されたテキスト情報からもリスクが感じられるケースもありました。今回、矢澤先生からテキストデータを活用した不正会計リスク検知の研究について声をかけていただき、これまでと異なるリスクの検知・対応ができるようになる可能性を感じ、共同研究させていただくこととなりました。

図表1

AIを活用した不正会計リスク検知モデルの開発 図表1

出典:KPMG

日本企業のテキストデータを不正会計検知に活用したい~研究の背景

矢澤氏:共同研究のコンセプトは、財務データを主とする不正リスクの検知モデルに非財務(テキスト)データを加えて、モデルの検知能力を向上させることです。この研究では、自然言語処理と機械学習を活用し、より精度の高い検知モデルの開発を目指します。

まず、学術的アプローチの流れについて説明しますと、これまで不正リスクの検知モデルに関する研究では、財務データを用いて統計的に不正の兆候を見つけられるかについて統計的推定モデルを構築し、実証する、というアプローチが取られてきました。そのあとに、コンピューターの処理能力の向上やビッグデータが充実することによって、機械学習によるアプローチが台頭してきました。特に、各国においてテキストデータなどの非財務データに関する制度開示が充実することによって、それらの自然言語で書かれたデータを用いた会計研究が増えていきました。

しかし、これらの研究は主に英語の財務報告を対象としており、その他の言語に関しては中国語などごくわずかでした。そのため、各国の実務において英語と同様の知見が得られるのか、という問題意識がありました。そこで、今回の研究では日本語データを対象として、そのデータに不正リスクの検知能力が潜んでいるかを検証することをコンセプトとしました。日本語データを対象に研究することで、得られた知見は日本企業のビジネスに対する有効活用につながります。

a

青山学院大学 経営学部経営学科 教授
矢澤 憲一 氏

 

a

有限責任 あずさ監査法人  パートナー
宇宿 哲平

 

宇宿:不正会計への対応に社会の期待は高まっています。これを受けて、あずさ監査法人もこれまで対応を強化してきました。法人内では不正リスクの評価に機械学習モデルを活用したFraudRiskScoring_aiというモデルを開発し、実務に導入しています。このモデルは主に財務データを中心とした構造化データを利用したもので、テキストデータはまだ取り入れていません。矢澤先生との共同研究のアプローチは非常に興味深く、従来のモデルでは捉えきれないリスク要因を発見する可能性があります。

AI(機械学習)のアルゴリズムで不正分類に有効な変数を発見

矢澤氏:伝統的な統計的手法と比較して、機械学習の特徴は自由度が高いという点が挙げられます。

たとえば、従来の統計分析では説明に使うデータが互いに影響し合わないことが重要で、説明変数の数が制限されることがあります。一方、機械学習では多くの説明変数(特徴量)を同時に扱うことができます。我々のモデルでも最終的には数百もの説明変数(特徴量)を組み込む研究をしています。これには財務データ由来の「売上高」、「営業利益率」などといった財務変数、テキストデータ由来の「ネガティブワード」、「平均単語長*1」といった言語変数が含まれます。そして、これらのデータを使って機械学習を行い、その結果、思いもよらない変数が不正会計の分類に有効であることがわかりました。

宇宿:そうですね。当初私が想定していた以上に、テキスト情報から不正リスクを捉えることができると実感しました。実務家としての期待以上の成果が得られたと思います。

図表2

AIを活用した不正会計リスク検知モデルの開発 図表2

出典:KPMG

不正会計を行った企業の開示テキストデータの特徴~分析の結果からわかること

矢澤氏:具体的に研究内容をお伝えしますと、我々の研究では、2010年から2019年の上場企業32,383社の有価証券報告書を対象に、包括的な言語変数(感情、複雑性、多様性、表現性など)を作成し、これらと財務変数を組み合わせて「重み付けランダムフォレスト(WRF)*2」というアルゴリズムで訓練したモデルを用いました。その結果、評価指標であるAUC*3で、0.907という高い精度を達成しました。AUCは財務変数のみのモデルでは0.891であり、言語変数を加えることで向上しました。

また、こうした分析の結果、不正会計を行った企業はそうでない企業と比べて、(1)MD&A(経営者による財政状態、経営成績およびキャッシュ・フローの状況の分析)のトーンがネガティブ、また複雑で比率などの割合に関する表現が少ない、(2)リスク情報がポジティブで第三者への言及が多い、(3)コーポレートガバナンスにおいてポジティブワードが少なく、読みやすいが企業固有の表現が少ない、という特徴が浮かび上がりました。

このように、本研究は不正リスクの検出において、言語情報が財務情報と同様に重要であり、両者の統合がモデルの検知能力を高めることを示しています。企業の有価証券報告書には数値データだけでは捉えきれない情報(企業の意図や活動内容など)が含まれており、これを活用することで、より正確な予測が可能となります。財務報告においてテキストデータの開示が進められていますが、これらの非構造化データに一定の情報価値がある可能性が示された点は、学術的、実務的に意義のあることだと考えています。

生成AI活用でさらなる精度向上へ

矢澤氏:今回の研究では、AIを使った機械学習に加え、生成AIモデルを用いて言語変数を作成すると、さらにモデルのAUCが向上することも示されました。機械学習の結果、AUC0.907という高い精度が達成できましたが、さらに生成AIを使ってテキストのトーン(ポジティブ/ネガティブ/ニュートラル)を変数として加えると、AUCは0.912まで向上しました。

宇宿:財務データと異なり、テキストデータは自然言語で書かれた非構造化データであるため、自然言語処理技術を用いて変数(特徴量)を作成することが求められます。自然言語処理自体は、これまでもデータ分析で用いることがありましたが、矢澤先生から既存研究におけるさまざまなアプローチを調査された結果や、これまで実際に試されたアプローチを共有いただき、大変勉強になりました。不正を行っている場合、こういう文章の書き方をするのではないかという仮説があり、それに基づいた変数をどう作るかと考えることが重要です。共同研究の成果は、不正会計リスクの検知モデルとして現場で役立つだけでなく、その開発プロセスや得られた知見が、将来的にさらに広範な応用可能性を提供してくれると考えます。

 

*1:平均単語長:「総文字数/総単語数」で計算。この変数が長いほど、難しい語句を用いた複雑なテキストだと考える。

*2:重み付けランダムフォレスト(WRF):機械学習アルゴリズムの1つであり、多数の決定木を作成し、その中から多数決を取ることで最終的な分類結果を決定する。重み付けを行うことで、特定のデータの重要性を反映させ、バランスの取れていないデータセットでも効果的に学習できるようにすることが可能。特に不均衡なデータセット(例えば、詐欺や不正会計のようなレアイベントの予測など)において有用とされる。

*3:AUC:分類モデルの性能を評価するために広く用いられる指標。AUCの値が1に近いほど、モデルの性能が高いことを示す。

AIを活用した不正会計リスク検知モデルの開発図表03

矢澤 憲一 氏
青山学院大学 経営学部経営学科 教授
会計・監査・ガバナンスに関する実証分析、財務報告に関するテキスト分析が専門。テキスト分析の可能性に魅せられ本格的にプログラミングを学び、現在は研究のメインフィールドとしている。大学では財務会計、簿記の講義を担当。ゼミではテキストマイニングやAIなど最新の分析ツールを用いて研究活動に取り組み、大学生の研究発表大会「Accounting Competition」において2年連続で最優秀賞獲得などの実績がある。

宇宿 哲平
有限責任 あずさ監査法人  パートナー
金融、商社、IT等、幅広い業種の会計監査業務に従事し、現在は、Digital Innovation本部にて会計監査向けデータ分析、AI研究開発・活用をリード。不正リスク検知モデルの開発や生成AIを活用したソリューション開発を推進している。AI開発やガバナンスの知見を活かし、AI Assurance Groupリーダーとして、大手企業、金融機関向けにAI/AIガバナンスの評価、ガバナンス構築アドバイザリーを提供。

次回は、研究成果の実務への応用可能性や生成AIを用いた不正会計リスクの検知研究の将来について掘り下げていきます。

執筆者

あずさ監査法人
Digital Innovation本部

関連リンク