2023 年 6 月,紐約南區聯邦地方法院的一場聽證會成為了全球 AI 治理史上的標誌性事件。律師 Steven Schwartz 在一起人身傷害訴訟(Mata v. Avianca, Inc.)中,使用 ChatGPT 撰寫法律文件,引用了六個看似完整——包含案號、法院、裁判日期與法律論理——但實際上完全由 AI 虛構的判例。[1]當法官 P. Kevin Castel 要求律師提供這些判例的全文時,Schwartz 再次向 ChatGPT 確認這些案例是否真實——ChatGPT「自信地」回答:「是的,這些案例是真實的,可以在知名法律數據庫中找到。」法院最終對 Schwartz 處以 5,000 美元罰款,並在判決書中寫道:這代表了「一個糟糕的先例的開始」。[1]這個案例不是孤立事件。2024 年,Google 的 AI Overview 功能在搜尋結果中建議使用者在披薩上塗非毒性膠水以防止起司滑落;[2]Air Canada 的客服聊天機器人虛構了一項不存在的「喪親折扣政策」,法院最終判決航空公司必須兌現 AI 做出的虛假承諾。[3]這些事件共同指向一個在 AI 產業中被長期低估的系統性風險:AI 幻覺(hallucination)——生成式 AI 以高度自信的語氣產生看似合理但實際上不正確或完全虛構的內容。在我帶領超智諮詢為企業部署 AI 系統的實踐中,以及過去在劍橋大學從事科技治理研究的經驗裡,我深切認識到:AI 幻覺不僅是一個技術問題——它是一個需要從技術、制度與組織三個層面進行系統性回應的治理挑戰。
一、AI 幻覺的認知科學:為什麼大型語言模型會「說謊」?
首先需要釐清一個根本性的概念:大型語言模型(LLM)不是在「說謊」——因為說謊預設了意圖與認知,而 LLM 不具備這兩者。更精確地說,LLM 是在「幻覺」——它們生成的內容不是基於對事實的理解,而是基於訓練資料中的統計模式。[4]
從技術層面,AI 幻覺可分為兩大類。事實性幻覺(factuality hallucination)指模型生成與可驗證事實不符的內容——如虛構的法律判例、不存在的學術論文、或錯誤的統計數據。忠實度幻覺(faithfulness hallucination)指模型的輸出與其輸入或既有上下文不一致——例如在摘要任務中加入源文件中不存在的資訊,或在翻譯中改變原文的語意。[4]
幻覺的根源在於 LLM 的架構本質。Transformer 模型通過「下一個 token 預測」(next token prediction)來生成文本——它在每一步選擇概率最高的下一個詞彙,而這個選擇是基於統計相關性,而非事實正確性。[5]當模型面臨其訓練資料中覆蓋不足的問題時,它不會說「我不知道」——因為它的訓練目標是生成流暢的文本,而非準確的資訊。這個架構特性意味著:幻覺不是 LLM 的 bug,而是其 feature 的副產品。讓 LLM 擅長創意寫作的那些特性(流暢性、連貫性、看似合理的推理鏈)恰恰也是使其產生幻覺的原因。
更深層的問題在於「校準」(calibration)。一個理想的 AI 系統應該在不確定時表達不確定——即它的信心程度應該與其準確率相匹配。然而,研究顯示當前的 LLM 普遍存在「過度自信」(overconfidence)的問題——即使在生成完全錯誤的內容時,模型的語氣仍然是確定的、權威的。[6]Mata v. Avianca 案中 ChatGPT 對虛構判例「自信地」確認其真實性,正是這個校準失敗的典型表現。這個問題的嚴重性在於:它利用了人類的「權威偏誤」(authority bias)——當資訊以確定、專業的語氣呈現時,人類傾向於信任它,即使它是錯誤的。
二、高風險領域的幻覺代價:法律、醫療與金融
AI 幻覺的危害程度,與其應用場景的風險等級直接相關。在低風險場景中(如內容創作、腦力激盪),一定程度的幻覺可以被容忍甚至是有益的。但在高風險場景中,幻覺可能造成不可逆的傷害。
法律領域是 AI 幻覺的高風險區。除了 Mata v. Avianca 案外,類似事件在全球各地不斷上演。2024 年,加拿大一名律師因使用 AI 生成包含虛構判例的法律文件而被法院制裁。[7]研究顯示,當被要求回答法律問題時,GPT-4 的幻覺率約為 6.2%——表面上看不高,但在法律語境中,6.2% 的錯誤率意味著每 16 個法律回答中就有一個可能包含虛構的法律依據。[8]更危險的是,法律領域的幻覺往往具有高度的「可信度偽裝」——AI 生成的虛假判例通常包含完整的案號格式、合理的法院名稱、以及看似合邏輯的法律推理,使得即使是有經驗的律師也可能在未進行獨立查證的情況下被誤導。
醫療領域的風險更為直接。多項研究評估了 LLM 在醫療問診中的幻覺率:一項針對 GPT-4 回答醫療問題的分析發現,約 4.2% 的回答包含臨床上不正確的資訊;另一項涵蓋多個模型的研究則顯示幻覺率在 3% 至 27% 之間,取決於問題的複雜度和模型的版本。[9]在腫瘤學中,研究者發現 ChatGPT 在回答癌症篩檢與治療相關問題時,約有 12.5% 的建議與現行臨床指南不一致。[10]當 AI 自信地給出錯誤的診斷建議——例如建議患者不需要進一步檢查,或推薦不適當的治療方案——後果可能是致命的。
金融領域的幻覺風險同樣不容忽視。AI 生成的金融分析可能包含虛構的市場數據、不存在的研究報告、或錯誤的財務比率。Bloomberg 的研究團隊發現,即使是在金融數據上進行了專業化訓練的模型(如 BloombergGPT),在生成特定的數值型金融資訊時仍然會出現幻覺。[11]在一個資訊時效性要求極高、決策影響金額巨大的領域中,幻覺的邊際傷害遠超其他場景。
三、資訊經濟學視角:幻覺作為市場失靈
從資訊經濟學的角度,AI 幻覺可以被理解為一種特殊形態的「資訊不對稱」(information asymmetry)與「市場失靈」(market failure)。[12]
諾貝爾經濟學獎得主 George Akerlof 在其經典論文「檸檬市場」中描述了一個機制:當買方無法區分高品質與低品質的產品時,市場會出現「逆向選擇」——高品質產品被低品質產品驅逐出市場。[13]AI 幻覺在資訊市場中製造了一個類似的動態:當 AI 生成的高品質內容(準確的分析、正確的事實)與低品質內容(幻覺、虛構的引用)在外觀上難以區分時,整個 AI 生成內容的市場將面臨信任危機。
這個分析框架解釋了為什麼「更好的模型」本身不能解決幻覺問題。即使下一代模型的幻覺率從 10% 降至 1%,只要用戶無法可靠地區分哪些輸出屬於那 1% 的幻覺,信任問題就依然存在。[14]這是一個結構性的問題,需要結構性的解決方案——不是更好的技術,而是更好的制度。
Michael Spence 的信號理論(signaling theory)提供了一個有用的框架。[15]在 AI 幻覺的語境中,「信號」可以是多種形式:AI 系統對其輸出的不確定性量化(「我對這個回答有 85% 的信心」);引用來源的可驗證性(可點擊的、真實的參考文獻連結);第三方的合規認證(通過幻覺率測試的獨立認證)。這些信號機制的建立,需要監管者、標準制定機構與產業界的協同行動。
四、技術緩解策略:從 RAG 到不確定性量化
儘管 AI 幻覺不能被完全消除,但可以通過多種技術手段顯著降低其發生頻率和影響程度。
檢索增強生成(Retrieval-Augmented Generation, RAG)是目前最廣泛採用的幻覺緩解技術。[16]RAG 的核心邏輯是:在 LLM 生成回答之前,先從外部知識庫中檢索相關的文件片段,然後將這些片段作為上下文提供給模型,使其回答「有據可查」而非「憑空生成」。研究顯示,相較於純粹的 LLM 生成,RAG 可以將事實性幻覺的發生率降低 40% 至 70%。[17]然而,RAG 並非萬能——如果知識庫本身包含錯誤資訊,或檢索系統未能找到相關的文件,RAG 仍然可能產生幻覺。此外,模型有時會「忽略」檢索到的上下文,而依據其自身的參數知識生成回答——這被稱為「上下文忽視」(context neglect)。
思維鏈推理(Chain of Thought, CoT)與自我一致性(Self-Consistency)是另一組重要的技術手段。通過要求模型在給出最終答案前展示其逐步推理過程,可以使幻覺更容易被人類審查者識別。自我一致性方法則要求模型對同一個問題生成多個獨立的回答,然後取多數一致的結果——如果多個回答互相矛盾,這本身就是一個幻覺的警訊。[18]
不確定性量化(Uncertainty Quantification)試圖從根本上解決 LLM 的「過度自信」問題。這包括在 token 層面的概率校準(使模型輸出的概率分布更準確地反映其實際準確率)、語義層面的不確定性估計(判斷整個語句而非單個 token 的可信度)、以及集成方法(ensemble methods,通過多個模型的輸出分歧來估計不確定性)。[19]Google 的 Gemini 1.5 和 Anthropic 的 Claude 3.5 已在不同程度上整合了不確定性表達能力——例如在回答知識性問題時加入「我不太確定」或「據我所知」等限定語。
事實驗證管線(Fact-Verification Pipeline)是一種後處理(post-processing)方法——在 LLM 生成輸出後,由另一個系統(可以是另一個 AI 模型或結構化的知識圖譜查詢)自動驗證輸出中的事實性聲明。[20]這類似於新聞編輯室的事實查核流程——記者撰寫文章後,由獨立的事實查核團隊驗證關鍵主張。自動化的事實驗證管線可以在不犧牲生成速度的前提下,為 AI 輸出添加一層品質保障。
五、制度設計:三層治理架構
技術手段是必要的,但不充分的。一個完整的 AI 幻覺治理框架需要在技術、流程與制度三個層面同時建構。
技術層的目標是最小化幻覺的產生。具體措施包括:部署 RAG 以降低事實性幻覺率;實施不確定性量化以使模型在不確定時表達不確定;建立事實驗證管線以自動檢測輸出中的事實錯誤;定期進行幻覺率基準測試(hallucination benchmarking),追蹤系統在不同任務類型上的幻覺表現。
流程層的目標是在幻覺產生後及時捕捉。這包括:根據應用場景的風險等級,定義不同程度的人工審查標準。在高風險場景(如法律文件、醫療建議、財務報告)中,每一筆 AI 生成的輸出都應經過具備專業知識的人員審查;在中風險場景中,可以採用抽樣審查;在低風險場景中,可以依賴用戶回饋。此外,應建立「幻覺事件回報系統」——當用戶或審查者發現幻覺時,能夠快速回報並觸發調查流程。[21]
制度層的目標是建立長期的治理基礎設施。美國國家標準與技術研究院(NIST)在 2023 年發布的《AI 風險管理框架》(AI RMF 1.0)提供了有用的參考架構。[22]該框架以四個核心功能組織:「治理」(Govern)——建立風險管理的組織文化與責任結構;「映射」(Map)——識別 AI 系統的風險場景;「測量」(Measure)——量化和追蹤風險指標;「管理」(Manage)——實施風險緩解與應變措施。將這個框架應用於 AI 幻覺治理,意味著企業需要:明確 AI 幻覺的責任歸屬(誰為 AI 的錯誤輸出負責?);建立幻覺風險的量化指標(不同業務場景中可接受的幻覺率為何?);並制定應變計畫(當 AI 幻覺造成實際損害時的處置流程)。
歐盟 AI 法案在制度層面提供了額外的法律框架。根據法案,高風險 AI 系統的提供者有義務確保「足夠的準確性、穩健性與網路安全」。[23]雖然法案沒有明確提及「幻覺」一詞,但幻覺——作為準確性的反面——無疑落入了這個義務的範疇。這意味著對於在歐盟部署的高風險 AI 系統,幻覺率的管控不僅是最佳實踐,更是法律義務。
六、組織文化:從「盲目信任」到「批判性協作」
治理框架的有效性最終取決於使用 AI 系統的人。技術和制度再完善,如果組織成員對 AI 輸出缺乏批判性思維,幻覺仍然會造成傷害。
研究顯示,人類在與 AI 互動時存在兩種偏誤:「自動化偏誤」(automation bias)——過度信任自動化系統的輸出,即使有矛盾的證據;以及「演算法厭惡」(algorithm aversion)——因曾經遭遇 AI 錯誤而完全拒絕使用 AI。[24]這兩者都不是建設性的態度。理想的狀態是「校準信任」(calibrated trust)——對 AI 的信任程度與其在特定任務上的實際可靠性相匹配。
建立校準信任需要組織層面的系統性努力。首先,AI 素養培訓——使員工理解 LLM 的工作原理、其固有的限制、以及幻覺的常見模式。當員工理解「AI 不是在回答你的問題,而是在預測最可能的下一個 token」時,他們自然會對 AI 輸出保持更適當的懷疑態度。其次,建立「驗證文化」——將獨立驗證 AI 輸出視為專業能力的體現,而非效率的損失。在高風險領域,「AI 說了什麼」永遠不應該是最終答案——它應該是「AI 建議什麼,我驗證了以下部分,結論是……」。
正如我在Vibe Coding 與軟體工程危機一文中討論的「認知債」(cognitive debt)概念,AI 幻覺的組織風險不僅在於錯誤的輸出本身,更在於長期依賴 AI 導致的人類專業判斷力退化。如果專業工作者習慣性地接受 AI 的輸出而不進行獨立思考,他們識別幻覺的能力本身就會逐漸喪失——這是一個自我強化的惡性循環。
七、結語:與不完美共存的智慧
AI 幻覺不會被完全消除——正如人類的認知偏誤不會被完全消除一樣。生成式 AI 的價值在於其強大的模式識別、語言生成與知識整合能力;而幻覺是這些能力的固有副產品。追求「零幻覺」的 AI 不僅在技術上不現實,在概念上也可能是自相矛盾的——因為使 LLM 產生創造性輸出的那些特性,恰恰也是使其產生幻覺的原因。
因此,正確的問題不是「如何消除 AI 幻覺」,而是「如何在 AI 幻覺的持續存在下,建立安全、可靠、值得信任的 AI 使用體系」。這個問題的答案不在於技術的突破——技術只能減少而非消除幻覺——而在於治理框架的完善:明確的責任歸屬、適當的風險分級、有效的人機協作流程、以及持續的組織學習。
從更宏觀的角度看,AI 幻覺的治理是 AI 時代「可信任科技」(trustworthy technology)建構的一個縮影。如同企業 AI 治理的其他面向,幻覺治理需要技術團隊、法律合規、風險管理與業務部門的跨領域協作。沒有一個單一的部門或單一的技術方案可以解決這個問題——它需要的是系統性思維與制度性回應。而在這個過程中,最關鍵的認知轉變或許是:接受 AI 的不完美不是失敗——它是負責任使用 AI 的起點。
References
- Mata v. Avianca, Inc. (2023). No. 22-cv-1461 (PKC), Order and Opinion. United States District Court, Southern District of New York. justia.com
- Verge, The. (2024). Google's AI told users to put glue on pizza. theverge.com
- Moffatt v. Air Canada (2024). Civil Resolution Tribunal, British Columbia. canlii.org
- Ji, Z. et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12), 1–38. doi.org
- Vaswani, A. et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30. arXiv:1706.03762
- Kadavath, S. et al. (2022). Language Models (Mostly) Know What They Know. arXiv:2207.05221
- Canadian Broadcasting Corporation. (2024). B.C. lawyer sanctioned for using AI-generated fake cases. cbc.ca
- Dahl, M. et al. (2024). Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models. Journal of Legal Analysis, 16(1). doi.org
- Umapathi, L. K. et al. (2023). Large Language Models in Medical Question Answering: A Systematic Evaluation of Hallucination. arXiv:2309.05922
- Chen, S. et al. (2023). Evaluation of ChatGPT in Answering Cancer Screening and Treatment Questions. JAMA Oncology. jamanetwork.com
- Wu, S. et al. (2023). BloombergGPT: A Large Language Model for Finance. arXiv:2303.17564
- Akerlof, G. A. (1970). The Market for 'Lemons': Quality Uncertainty and the Market Mechanism. The Quarterly Journal of Economics, 84(3), 488–500. doi.org
- Akerlof, G. A. (1970). 同上。
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv:2311.05232
- Spence, M. (1973). Job Market Signaling. The Quarterly Journal of Economics, 87(3), 355–374. doi.org
- Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems, 33. arXiv:2005.11401
- Shuster, K. et al. (2021). Retrieval Augmentation Reduces Hallucination in Conversation. Findings of EMNLP. arXiv:2104.07567
- Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171
- Gal, Y. & Ghahramani, Z. (2016). Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. ICML. arXiv:1506.02142
- Min, S. et al. (2023). FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation. arXiv:2305.14251
- ISO/IEC 42001:2023. Information technology — Artificial intelligence — Management system. iso.org
- National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). NIST AI 100-1. nist.gov
- European Parliament and Council. (2024). Regulation (EU) 2024/1689 — Artificial Intelligence Act, Article 15. eur-lex.europa.eu
- Parasuraman, R. & Riley, V. (1997). Humans and Automation: Use, Misuse, Disuse, Abuse. Human Factors, 39(2), 230–253. doi.org