「垃圾進,垃圾出」(Garbage in, garbage out)是資訊科學最古老的格言之一。在生成式 AI 時代,這句話的意涵被放大了數個量級。Gartner 在 2025 年的研究中預測,63% 的組織缺乏適當的數據管理實踐來支撐 AI,到 2026 年將有 60% 的 AI 專案因缺乏 AI-ready 數據而被放棄。[3]與此同時,McKinsey 的調查顯示 70% 的組織在數據治理整合到 AI 模型的過程中面臨嚴重困難。[4]本文探討兩個互為因果的問題:如何為生成式 AI 建立數據治理框架?以及,如何讓生成式 AI 反過來協助進行更有效的數據治理?

一、為什麼傳統數據治理不夠用?

傳統的數據治理——以 DAMA-DMBOK 框架為代表[5]——主要針對結構化數據(關聯式資料庫、數據倉儲)的品質、安全與生命週期管理。這套框架涵蓋 11 個知識領域,從數據架構到元數據管理,已經服務企業數十年。然而,生成式 AI 帶來了三個傳統框架未能充分處理的新挑戰。

第一,非結構化數據的治理。大型語言模型的訓練與微調依賴大量文本、圖像、音訊等非結構化數據。傳統治理框架的核心概念——如主數據管理、維度建模、資料品質規則——對這類數據的適用性有限。

第二,數據來源與偏見的可追溯性。生成式 AI 的輸出品質直接受訓練數據的偏見影響。EU AI Act 對高風險 AI 系統明確要求訓練數據必須具備可追溯的來源、已識別的偏見、以及文件化的數據品質指標。[2]這遠超傳統數據治理的範疇。

第三,動態的數據品質標準。AI 模型對數據品質的要求隨應用場景而變——用於客服聊天機器人的數據品質標準與用於醫療診斷的標準截然不同。數據治理必須從靜態的規則集合演化為動態的、情境感知的品質框架。

二、全球監管框架的數據治理要求

過去兩年,全球 AI 監管環境發生了劇烈變化。Stanford HAI 的研究顯示,2024 年美國聯邦機構引入了 59 項 AI 相關法規,較前一年翻倍。[7]對企業的數據治理實踐而言,三個框架尤其重要。

NIST AI RMF 1.0:風險導向的治理

美國國家標準暨技術研究院(NIST)在 2023 年發布的 AI 風險管理框架(AI RMF 1.0),提出了四個核心功能:治理(Govern)、映射(Map)、衡量(Measure)、管理(Manage)。[1]在數據治理的脈絡下,「映射」功能要求組織識別 AI 系統所使用的數據來源與其風險特徵;「衡量」功能要求建立數據品質的量化指標;「管理」功能要求制定數據問題的發現與修復流程。NIST 隨後在 2024 年發布了生成式 AI 專用的風險配置文件(AI 600-1),進一步針對幻覺、偏見與數據隱私等 GenAI 特有風險提出指引。

EU AI Act:法律約束力的數據要求

2024 年 7 月正式公布的歐盟《人工智慧法》是全球第一部具法律約束力的 AI 全面性法規。[2]該法對高風險 AI 系統的訓練數據提出具體要求:數據必須具備適當的數據治理與管理實踐;訓練、驗證與測試數據集必須相關、具代表性且盡可能無錯誤;必須考量數據集的統計特性(包括可能的偏見)。違規的最高罰款可達全球年營收的 7%,這使得數據治理從「最佳實踐」升格為「法律義務」。

OECD AI 原則:國際共識的底線

OECD 在 2019 年發布、2024 年更新的 AI 原則,已獲得 47 個經濟體的認可。[6]2024 年的更新特別針對生成式 AI、虛假資訊與智慧財產權議題增加了指引。五項核心原則中,「穩健性與安全性」和「透明度」兩項與數據治理直接相關,要求組織確保 AI 系統所使用數據的品質、完整性與可追溯性。

三、AI-Ready 數據治理框架的五大支柱

基於上述監管要求與實務經驗,我提出一個適用於生成式 AI 時代的數據治理框架,包含五大支柱:

  1. 數據來源治理(Data Provenance):建立端到端的數據血統追蹤,記錄每一筆訓練數據的來源、取得時間、授權狀態與處理歷程。這不僅是 EU AI Act 的法律要求,更是偵測與修正偏見的前提。
  2. 動態品質管理(Dynamic Quality Management):從靜態的數據品質規則轉向情境感知的品質框架。針對不同的 AI 應用場景(客服、研發、法遵等),定義不同的品質閾值與驗證機制。
  3. 隱私與安全分級(Privacy & Security Tiering):依據 ISO/IEC 38505 的數據分類指引[8],將數據按敏感度分級,並為每個級別定義 AI 系統可存取的範圍與條件。特別注意個人資料在 RAG(檢索增強生成)架構中的處理方式。
  4. 偏見監控與緩解(Bias Monitoring & Mitigation):建立持續性的偏見偵測機制,不只在模型訓練階段,更在推論階段監控輸出的公平性。記錄已知偏見、已採取的緩解措施及其效果。
  5. 治理自動化(Governance Automation):利用 AI 工具自身來執行數據治理任務——這是本框架最具遞迴性的部分,詳見下一節。

四、讓 AI 協助數據治理:正向循環的建立

生成式 AI 不只是數據治理的受益者,它也可以成為數據治理的工具。這種「AI 治理 AI」的遞迴結構,正在成為領先企業的實踐模式。具體應用包括:

自動化數據分類與標註:利用 LLM 自動識別非結構化文件的敏感度等級、主題分類與合規標記。傳統上需要數據管理團隊花費數週手動標註的工作,AI 可以在數小時內完成初步分類,再由人類進行抽樣驗證。

智慧型元數據生成:自動為數據資產生成描述性元數據、業務詞彙對照、資料血統文件。這直接解決了多數企業元數據管理不足的痛點。

數據品質異常偵測:利用 AI 模型監控數據管線中的異常模式——突然的分布偏移、缺失值暴增、或格式不一致。這種持續性的監控遠比定期人工稽核更有效率。

法規遵循自動化評估:將 EU AI Act、NIST AI RMF 等法規框架的要求結構化,利用 AI 自動比對組織的數據治理實踐與法規要求之間的差距,生成合規差距分析報告。

這形成了一個正向循環:更好的數據治理產生更高品質的訓練數據,更高品質的訓練數據產生更可靠的 AI 模型,更可靠的 AI 模型又反過來強化數據治理的能力。打斷這個循環的起點——數據治理基礎建設的投資——正是多數企業目前最需要優先處理的事項。

五、結語:數據治理是 AI 策略的地基

World Economic Forum 的 AI 治理聯盟在 2024 年的報告中指出,負責任的 AI 部署需要涵蓋技術、制度與治理三個維度的整合性框架。[9]在這三個維度中,數據治理是最基礎、卻也最容易被低估的一環。

企業投入大量資源採購最新的 AI 模型與運算基礎設施,卻往往忽略了一個根本問題:如果數據的品質、來源與治理不到位,再先進的模型也只是在垃圾數據上運轉的昂貴引擎。在生成式 AI 時代,數據治理不再只是 IT 部門的例行工作——它是 AI 策略的地基,是法規遵循的前提,更是企業在 AI 競賽中能走多遠的決定性因素。

References

  1. NIST. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). NIST AI 100-1. nist.gov
  2. European Parliament & Council. (2024). Regulation (EU) 2024/1689 — Artificial Intelligence Act. eur-lex.europa.eu
  3. Gartner. (2025). Lack of AI-Ready Data Puts AI Projects at Risk. gartner.com
  4. McKinsey & Company. (2024). Charting a Path to the Data- and AI-Driven Enterprise of 2030. mckinsey.com
  5. DAMA International. (2017). DAMA-DMBOK: Data Management Body of Knowledge, 2nd Edition. Technics Publications.
  6. OECD. (2024). Recommendation of the Council on Artificial Intelligence (updated). oecd.ai
  7. Stanford Institute for Human-Centered Artificial Intelligence. (2024). Artificial Intelligence Index Report 2024. hai.stanford.edu
  8. ISO/IEC. (2017). ISO/IEC 38505-1:2017 — Information technology — Governance of IT — Governance of data. iso.org
  9. World Economic Forum. (2024). AI Governance Alliance Briefing Paper Series. weforum.org
返回洞見