近年、ChatGPTをはじめとする大規模言語モデル(Large Language Models、以下、「LLM」)が目覚ましく進歩し、テキスト生成や翻訳、情報検索などさまざまな業務で導入されています。革新的な技術として注目されているLLMですが、事実とは異なる情報を出力する「ハルシネーション」と呼ばれる課題があります。ハルシネーションとは、AIが事実に基づかない情報を生成する現象のことで、AIが幻覚(ハルシネーション)を見ているかのごとくさも事実かのように出力する場合があることから、こう呼ばれています。
ハルシネーションを低減するアプローチの1つに、検索拡張生成(Retrieval-Augmented Generation、以下、「RAG」)が挙げられます。RAGは、大量のデータをインプットすることで、LLMに投げかけた質問に関連する情報を含む文章を検索することができます。また、その情報をLLMに参考情報として渡すことで、ハルシネーションを防ぎながら、より精度の高い回答を得ることができます。
RAGのメリットが多く論じられる一方で、RAGにも、意図せずに回答の多様性を狭めかねないという課題があります。本稿では、RAG利用時の課題とその対応策について解説します。
実例から見るRAGの課題と対応策
RAGは事前にインプットしたデータベースを参照して回答を出力するため、インプットが不十分な場合は意図せずに回答の多様性を狭めて、情報の偏りを生じさせる可能性があります。たとえば、5G普及のためのインフラ整備推進に関するパブリックコメントを整理したい場合、それぞれのステークホルダーが持つ異なる意見の反映が望ましいですが、RAGの参照するデータがすべて半導体メーカーの意見だと、特定のステークホルダーに偏る結果になってしまいます。いくつかの案件でも、RAGを利用することでハルシネーションが低減できたものの、回答の偏りが強くなったという悩ましい状況が発生していました。
【RAGの参照データに偏りがある例】
上記問題を解決するために、よく試される対策がデータベースの品質向上です。データの種類や収集方法を増やすことで、多様性のあるデータベースを構築することができます。しかし、データベースがどれだけ多様かつ高品質であっても、質問に対して適切な情報を引き出すための基準が明確でなければ、結果として偏った回答が生成される可能性は否定できません。たとえば、先ほどと同じ質問に対して、データベースを多様な内容に更新したとしても、一部の観点に基づいた回答のみが出力される可能性があります。
【データベースを多様化してもRAGの回答が偏っている例】
RAGで検索する前に、あらかじめ回答に必要となる観点を洗い出し、そのうえでそれぞれの観点ごとに関連する情報を取得・LLMに参照させる方法により、上記の課題を解決することができます。たとえば、上記の要望に対して、まずは5Gのインフラ整備に係る利害関係者をLLMで先に洗い出します。洗い出された観点を検索クエリに埋め込むことで、データベースからさまざまな観点の情報を参照することができます。
【RAGの回答が多様な観点から出力される例】
LLMの業務活用時のポイント
前述の手法により、RAGを利用する際に、意図せず回答の多様性を狭めてしまう課題の解決が期待できます。RAGを導入する際は、LLMで回答してほしい観点をあらかじめ洗い出すことが重要です。
【RAGの検索前に回答観点を洗い出すステップ】
一方、効率化だけ考え、観点の設定を完全にLLMに任せてしまうと、LLMの回答を評価、フィードバックすることも、改善することも難しくなります。そのため、たたき台をLLMに作ってもらい、人間が取捨選択する方法が有効でしょう。LLMにより業務が便利になった今だからこそ、人間の思考力の重要性が一層増しています。
※本文中に記載されている会社名・製品名は各社の登録商標または商標です。
執筆者
KPMGコンサルティング
スペシャリスト 王 冠華
コンサルタント 和田 莉奈