2023年6月、ニューヨーク南部地区連邦地方裁判所での審理が、AIガバナンスのグローバルな歴史における画期的な出来事となった。弁護士スティーブン・シュワルツは人身傷害訴訟(Mata v. Avianca, Inc.)において、ChatGPTを用いて法的文書を作成し、事件番号、裁判所名、判決日、法的推論を完備した外観を持つ6件の判例を引用したが、それらはすべてAIが完全に捏造したものであった。[1] ケイスル判事が弁護士にこれらの判例の全文の提出を求めたところ、シュワルツは再びChatGPTに判例が実在するか確認を求め、ChatGPTは「自信に満ちて」こう回答した。「はい、これらの判例は実在し、信頼できる法律データベースで確認できます。」裁判所は最終的にシュワルツに5,000ドルの罰金を科し、判決文で「悪しき先例の始まり」と記した。[1] この事件は孤立した事象ではなかった。2024年にはGoogleのAI Overview機能が検索結果で、チーズが滑り落ちないようピザに無毒の接着剤を塗ることを推奨した。[2] エア・カナダのカスタマーサービスチャットボットは存在しない「喪中割引ポリシー」を捏造し、裁判所は最終的に航空会社がAIによる虚偽の約束を履行しなければならないと判決した。[3] これらの出来事はすべて、AI業界で慢性的に過小評価されてきたシステミックリスクを指し示している。AIハルシネーション――生成AIがもっともらしく見えるが実際には不正確または完全に捏造されたコンテンツを、極めて自信に満ちた口調で生成すること。Meta Intelligenceを率いて企業向けAIシステムの展開を行ってきた経験と、ケンブリッジ大学でのテクノロジーガバナンス研究を通じて、筆者はAIハルシネーションが単なる技術的問題ではなく、技術、制度、組織の各次元にわたるシステム的対応を要するガバナンスの課題であることを深く認識するに至った。

I. AIハルシネーションの認知科学:なぜ大規模言語モデルは「嘘をつく」のか

まず基本的な概念を明確にしなければならない。大規模言語モデル(LLM)は「嘘をついている」のではない――嘘には意図と認知が前提となるが、LLMはそのいずれも持っていない。より正確には、LLMは「ハルシネーションしている」――生成されるコンテンツは事実の理解に基づくのではなく、訓練データの統計的パターンに基づいているのだ。[4]

技術的な観点から、AIハルシネーションは二つの主要なカテゴリーに分類できる。事実性ハルシネーションとは、モデルが検証可能な事実に矛盾するコンテンツを生成すること――捏造された判例、存在しない学術論文、不正確な統計など――を指す。忠実性ハルシネーションとは、モデルの出力がその入力や既存のコンテキストと不整合であること――例えば要約タスクで原文にない情報を追加したり、翻訳で原文の意味を改変したり――することを指す。[4]

ハルシネーションの根本原因はLLMのアーキテクチャ上の性質にある。Transformerモデルは「次のトークン予測」によってテキストを生成する――各ステップで最も確率の高い次の単語を選択するが、この選択は事実の正確性ではなく統計的相関に基づいている。[5] モデルは訓練データで十分にカバーされていない質問に遭遇したとき、「わかりません」とは言わない――その訓練目的が正確な情報の生成ではなく、流暢なテキストの生成だからだ。このアーキテクチャ上の特性は次のことを意味する。ハルシネーションはLLMのバグではなく、その機能の副産物である。LLMを創造的な文章執筆に優れたものにするまさにその特性(流暢さ、一貫性、もっともらしい推論の連鎖)が、ハルシネーションを引き起こす原因でもあるのだ。

より深い問題は「キャリブレーション」に関するものだ。理想的なAIシステムは不確実なときに不確実性を表現すべきである――つまり、その確信度レベルは正確性率に一致すべきだ。しかし研究によれば、現在のLLMは普遍的に「過信」の問題を抱えている――完全に不正確なコンテンツを生成しているときでさえ、モデルの口調は確実で権威あるものであり続ける。[6] Mata v. AviancaにおけるChatGPTの捏造判例の「自信に満ちた」確認は、このキャリブレーション不全の教科書的な現れである。この問題の深刻さは、人間の「権威バイアス」を悪用するところにある――情報が確実で専門的な口調で提示されると、それが間違っていても人間はそれを信頼する傾向がある。

II. 高リスク領域におけるハルシネーションのコスト:法律、医療、金融

AIハルシネーションによる被害の深刻さは、その適用コンテキストのリスクレベルに正比例する。低リスクのシナリオ(コンテンツ作成やブレインストーミングなど)では、一定程度のハルシネーションは許容でき、場合によっては有益でさえある。しかし高リスクのシナリオでは、ハルシネーションは取り返しのつかない損害を引き起こしうる。

法律分野はAIハルシネーションの高リスクゾーンである。Mata v. Avianca事件を超えて、世界中で類似の事件が発生している。2024年にはカナダの弁護士が捏造された判例を含むAI生成の法的文書を使用したことで裁判所から制裁を受けた。[7] 研究によれば、法的質問に回答する際のGPT-4のハルシネーション率は約6.2%である――表面的には低く見えるが、法的コンテキストにおいては、6.2%のエラー率は約16の法的回答に1つは捏造された法的根拠を含む可能性があることを意味する。[8] より危険なのは、法律分野でのハルシネーションがしばしば高度な「信頼性の偽装」を示すことだ――AI生成の偽判例は通常、完全な事件番号形式、もっともらしい裁判所名、一見して論理的な法的推論を含んでおり、独立した検証なしには経験豊富な弁護士でさえ誤導される可能性がある。

医療分野はさらに直接的なリスクを呈する。複数の研究がLLMの医療相談におけるハルシネーション率を評価しており、ある分析ではGPT-4が医療質問に回答する際、約4.2%の回答に臨床的に不正確な情報が含まれていた。別の複数モデルを対象とした研究では、質問の複雑さとモデルのバージョンに応じてハルシネーション率が3%から27%の範囲であることが示された。[9] 腫瘍学では、ChatGPTが癌スクリーニングと治療に関する質問に回答する際、現行の臨床ガイドラインと矛盾する推奨を約12.5%の確率で行うことが発見された。[10] AIが自信に満ちて誤った診断アドバイスを提供する場合――例えば、さらなる検査は不要だと患者に助言したり、不適切な治療計画を推奨したり――その結果は致命的となりうる。

金融分野も同様に重大なハルシネーションリスクに直面している。AI生成の金融分析には捏造された市場データ、存在しない調査レポート、不正確な財務比率が含まれる場合がある。Bloombergの研究チームは、金融データで特別に訓練されたモデル(BloombergGPTなど)であっても、具体的な数値の金融情報を生成する際にはハルシネーションが発生することを発見した。[11] 情報の即時性が極めて重要で、意思決定の影響が巨額に及ぶ分野では、ハルシネーションの限界的損害は他のコンテキストをはるかに超える。

III. 情報経済学の視点:市場の失敗としてのハルシネーション

情報経済学の観点から、AIハルシネーションは「情報の非対称性」と「市場の失敗」の特殊な形態として理解できる。[12]

ノーベル経済学賞受賞者ジョージ・アカロフは古典的論文「レモンの市場」で次のメカニズムを記述した。買い手が高品質と低品質の製品を区別できない場合、市場は「逆選択」を経験する――高品質の製品が低品質の製品に駆逐される。[13] AIハルシネーションは情報市場に同様のダイナミクスを生み出す。高品質のAI生成コンテンツ(正確な分析、正しい事実)と低品質のコンテンツ(ハルシネーション、捏造された引用)が外観上区別できない場合、AI生成コンテンツの市場全体が信頼の危機に直面する。

この分析フレームワークは、なぜ「より優れたモデル」だけではハルシネーション問題を解決できないかを説明している。たとえ次世代モデルがハルシネーション率を10%から1%に低減したとしても、ユーザーがどの出力がその1%のハルシネーションに該当するかを確実に識別できない限り、信頼の問題は持続する。[14] これは構造的解決策を必要とする構造的問題である――より良い技術ではなく、より良い制度が必要なのだ。

マイケル・スペンスのシグナリング理論は有用なフレームワークを提供する。[15] AIハルシネーションの文脈において、「シグナル」はさまざまな形態をとりうる。AIシステムによる出力の不確実性定量化(「この回答に85%の確信があります」)、引用元の検証可能性(クリック可能で真正な参照リンク)、第三者コンプライアンス認証(ハルシネーション率テスト合格後の独立認証)。これらのシグナリングメカニズムの確立には、規制当局、基準策定機関、産業界の協調的な行動が必要である。

IV. 技術的緩和戦略:RAGから不確実性定量化まで

AIハルシネーションを完全に排除することはできないが、さまざまな技術的手段によってその頻度と影響を大幅に低減することは可能である。

検索拡張生成(RAG)は現在最も広く採用されているハルシネーション緩和技術である。[16] RAGのコアロジックは、LLMが回答を生成する前に外部知識ベースから関連する文書の断片を検索し、これらの断片をコンテキストとしてモデルに提供し、回答を「根拠に基づいたもの」にすることである。研究によれば、純粋なLLM生成と比較して、RAGは事実性ハルシネーション率を40%から70%低減できる。[17] ただしRAGは万能薬ではない――知識ベース自体に誤情報が含まれていたり、検索システムが関連文書を見つけられなかったりする場合、RAGでもハルシネーションは生じうる。さらに、モデルが検索されたコンテキストを「無視」して自身のパラメトリック知識に基づいて回答を生成することがある――「コンテキスト無視」として知られる現象である。

思考の連鎖(CoT)推論と自己一貫性はもう一つの重要な技術的アプローチである。モデルに最終的な回答を出す前にステップバイステップの推論過程を示すことを要求することで、ハルシネーションは人間のレビュアーにとって識別しやすくなる。自己一貫性手法はモデルに同じ質問に対して複数の独立した回答を生成させ、多数決で一致する結果を取る――複数の回答が互いに矛盾する場合、それ自体がハルシネーションの警告サインとなる。[18]

不確実性定量化はLLMの「過信」問題に根本的に対処しようとするものである。これにはトークンレベルの確率キャリブレーション、セマンティックレベルの不確実性推定、アンサンブル手法が含まれる。[19] GoogleのGemini 1.5やAnthropicのClaude 3.5は、さまざまな程度で不確実性表現の能力を統合している――例えば、知識ベースの質問に回答する際に「完全にはわかりませんが」や「私の知る限り」といった限定詞を付加する。

事実検証パイプラインは後処理アプローチである――LLMが出力を生成した後、別のシステム(他のAIモデルや構造化された知識グラフクエリ)が出力中の事実の主張を自動的に検証する。[20] これはニュース編集室のファクトチェックプロセスに類似している――記者が記事を書いた後、独立したファクトチェックチームが主要な主張を検証する。自動化された事実検証パイプラインは、生成速度を犠牲にすることなくAI出力に品質保証の層を追加できる。

V. 制度設計:三層ガバナンスアーキテクチャ

技術的措置は必要であるが十分ではない。包括的なAIハルシネーションガバナンスフレームワークには、技術、プロセス、制度の三つの次元にわたる同時的な構築が必要である。

技術層はハルシネーションの生成を最小化することを目的とする。具体的な措置として、RAGの展開による事実性ハルシネーション率の低減、不確実性定量化の実装によりモデルが不確実なときに不確実性を表現するようにすること、事実検証パイプラインの確立による出力中の事実上のエラーの自動検出、定期的なハルシネーションベンチマークの実施によるタスクタイプ別のシステムハルシネーションパフォーマンスの追跡が含まれる。

プロセス層はハルシネーションが発生した後に迅速に捕捉することを目的とする。これには、アプリケーションコンテキストのリスクレベルに基づいてさまざまな程度の人間によるレビュー基準を定義することが含まれる。高リスクシナリオ(法的文書、医療アドバイス、金融レポートなど)では、AI生成のすべての出力を当該分野の専門知識を持つ人員がレビューすべきである。中リスクシナリオではサンプリングレビューを採用し、低リスクシナリオではユーザーフィードバックに依拠できる。さらに「ハルシネーションインシデント報告システム」を確立し、ハルシネーションが発見された際にユーザーやレビュアーが迅速に報告し、調査プロセスを起動できるようにする。[21]

制度層は長期的なガバナンスインフラの構築を目的とする。米国国立標準技術研究所(NIST)が2023年に公表したAIリスク管理フレームワーク(AI RMF 1.0)は有用な参照アーキテクチャを提供する。[22] このフレームワークは四つのコア機能を中心に構成されている。「Govern」――リスク管理の組織文化と説明責任構造を確立する、「Map」――AIシステムのリスクシナリオを識別する、「Measure」――リスク指標を定量化・追跡する、「Manage」――リスク緩和と対応措置を実施する。このフレームワークをAIハルシネーションガバナンスに適用すると、企業は以下を行う必要がある。AIハルシネーションの説明責任を明確にする(AIの誤った出力に誰が責任を持つか)、ハルシネーションリスクの定量的指標を確立する(異なるビジネスシナリオで許容されるハルシネーション率はどの程度か)、コンティンジェンシープランを策定する(AIハルシネーションが実害を引き起こした際の対応手順)。

EU AI Actは制度レベルで追加的な法的枠組みを提供する。同法のもとで、高リスクAIシステムの提供者は「十分な精度、堅牢性、サイバーセキュリティ」を確保する義務がある。[23] 同法は「ハルシネーション」という語を明示的に述べてはいないが、ハルシネーション――精度の反対概念として――は間違いなくこの義務の範囲に含まれる。これはEU域内で展開される高リスクAIシステムにとって、ハルシネーション率の制御はベストプラクティスであるだけでなく法的義務でもあることを意味する。

VI. 組織文化:「盲信」から「批判的協働」へ

ガバナンスフレームワークの有効性は、最終的にはAIシステムを使用する人々に依存する。技術と制度がいかに適切に設計されていても、組織の構成員がAI出力に対する批判的思考を欠いていれば、ハルシネーションは依然として被害を引き起こす。

研究によれば、人間はAIとの相互作用において二つのバイアスを示す。「自動化バイアス」――矛盾する証拠が存在していても自動化システムの出力を過度に信頼すること、そして「アルゴリズム嫌悪」――AIのエラーに一度遭遇した後、AIの使用を完全に拒否すること。[24] そのどちらも建設的な態度ではない。理想的な状態は「校正された信頼」――AIへの信頼のレベルが、特定のタスクにおけるその実際の信頼性と一致することである。

校正された信頼の構築には、組織レベルでの体系的な取り組みが必要である。第一に、AIリテラシー研修――従業員にLLMの動作原理、その固有の限界、ハルシネーションの一般的なパターンを理解させること。従業員が「AIはあなたの質問に答えているのではなく、最も確率の高い次のトークンを予測している」ことを理解すれば、AI出力に対してより適切な水準の懐疑心を自然に維持するようになる。第二に、「検証文化」の確立――AI出力の独立した検証を、効率の損失ではなく専門能力の発揮として扱うこと。高リスク領域では、「AIがそう言った」は決して最終的な回答であるべきではない――「AIが示唆し、私が確認した部分、そして私の結論は...」であるべきだ。

筆者がバイブコーディングとソフトウェアエンジニアリングの危機に関する記事で「認知的負債」の概念を論じたように、AIハルシネーションの組織的リスクは誤った出力そのものだけにあるのではなく、長期的なAI依存によって人間の専門的判断力が徐々に劣化することにもある。専門職の従業者が独立した思考なしにAI出力を習慣的に受け入れるようになれば、ハルシネーションを識別する能力自体が段階的に侵食されていく――これは自己強化型の悪循環である。

VII. 結論:不完全さと共存する知恵

AIハルシネーションが完全に排除されることはないだろう――人間の認知バイアスが完全に排除されることがないのと同様に。生成AIの価値はその強力なパターン認識、言語生成、知識統合能力にあり、ハルシネーションはこれらの能力に固有の副産物である。「ゼロハルシネーション」のAIを追求することは、技術的に非現実的であるだけでなく、概念的に自己矛盾する可能性がある――LLMが創造的な出力を生み出すことを可能にするまさにその特性が、ハルシネーションの原因でもあるからだ。

したがって、正しい問いは「いかにしてAIハルシネーションを排除するか」ではなく、「AIハルシネーションが持続的に存在する中で、いかにして安全で信頼性が高く、信用に足るAI利用システムを構築するか」である。この問いへの答えは技術的ブレークスルーにあるのではなく――技術はハルシネーションを低減できるが排除はできない――ガバナンスフレームワークの洗練にある。明確な説明責任、適切なリスク階層化、効果的な人間-AI協働プロセス、継続的な組織学習がそれだ。

より広い視点から見れば、AIハルシネーションのガバナンスはAI時代における「信頼できる技術」の構築の縮図である。企業のAIガバナンスの他の側面と同様に、ハルシネーションガバナンスには技術チーム、法的コンプライアンス、リスク管理、事業部門間のクロスディシプリナリーな協働が必要である。単一の部門や単一の技術的ソリューションではこの問題を解決できない――必要なのはシステム思考と制度的対応なのである。そしてこのプロセスにおいて、おそらく最も重要な認知の転換は次のことだろう。AIの不完全さを受け入れることは失敗ではない――それは責任あるAI利用の出発点なのである。

参考文献

  1. Mata v. Avianca, Inc. (2023). No. 22-cv-1461 (PKC), Order and Opinion. United States District Court, Southern District of New York. justia.com
  2. Verge, The. (2024). Google's AI told users to put glue on pizza. theverge.com
  3. Moffatt v. Air Canada (2024). Civil Resolution Tribunal, British Columbia. canlii.org
  4. Ji, Z. et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12), 1–38. doi.org
  5. Vaswani, A. et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30. arXiv:1706.03762
  6. Kadavath, S. et al. (2022). Language Models (Mostly) Know What They Know. arXiv:2207.05221
  7. Canadian Broadcasting Corporation. (2024). B.C. lawyer sanctioned for using AI-generated fake cases. cbc.ca
  8. Dahl, M. et al. (2024). Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models. Journal of Legal Analysis, 16(1). doi.org
  9. Umapathi, L. K. et al. (2023). Large Language Models in Medical Question Answering: A Systematic Evaluation of Hallucination. arXiv:2309.05922
  10. Chen, S. et al. (2023). Evaluation of ChatGPT in Answering Cancer Screening and Treatment Questions. JAMA Oncology. jamanetwork.com
  11. Wu, S. et al. (2023). BloombergGPT: A Large Language Model for Finance. arXiv:2303.17564
  12. Akerlof, G. A. (1970). The Market for 'Lemons': Quality Uncertainty and the Market Mechanism. The Quarterly Journal of Economics, 84(3), 488–500. doi.org
  13. Akerlof, G. A. (1970). Ibid.
  14. Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv:2311.05232
  15. Spence, M. (1973). Job Market Signaling. The Quarterly Journal of Economics, 87(3), 355–374. doi.org
  16. Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems, 33. arXiv:2005.11401
  17. Shuster, K. et al. (2021). Retrieval Augmentation Reduces Hallucination in Conversation. Findings of EMNLP. arXiv:2104.07567
  18. Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171
  19. Gal, Y. & Ghahramani, Z. (2016). Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. ICML. arXiv:1506.02142
  20. Min, S. et al. (2023). FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation. arXiv:2305.14251
  21. ISO/IEC 42001:2023. Information technology — Artificial intelligence — Management system. iso.org
  22. National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). NIST AI 100-1. nist.gov
  23. European Parliament and Council. (2024). Regulation (EU) 2024/1689 — Artificial Intelligence Act, Article 15. eur-lex.europa.eu
  24. Parasuraman, R. & Riley, V. (1997). Humans and Automation: Use, Misuse, Disuse, Abuse. Human Factors, 39(2), 230–253. doi.org
インサイトに戻る