2025 年 1 月 20 日,就在唐納·川普(Donald Trump)宣誓就任美國第 47 任總統的同一天,一家中國 AI 公司悄然發布了一個將在數日內震動全球資本市場的模型。深度求索(DeepSeek)發布的 DeepSeek-R1 在數學推理、程式設計與科學問題解決等基準測試中,達到或超越了 OpenAI 的 o1 模型——而據報導,其訓練成本僅約 557 萬美元,不到美國同級模型數億美元投資的零頭。[1]1 月 27 日,美國股市出現劇烈震盪:NVIDIA 單日市值蒸發約 5,930 億美元,創下美國股市歷史上單一公司最大單日跌幅。[2]這個被稱為「DeepSeek 時刻」的事件,揭示了一個令人不安的事實:美國自 2022 年 10 月起實施的一系列半導體出口管制——旨在限制中國取得先進 AI 運算能力的政策——可能並未如預期般有效地遏制中國的 AI 發展。如果中國能以更少的算力、更低的成本,訓練出不遜於美國頂級實驗室的模型,那麼圍繞 AI 晶片的地緣政治博弈的整個戰略前提就需要重新審視。本文試圖從地緣政治賽局、開源經濟學與技術主權三重維度,剖析這個正在重塑全球 AI 格局的結構性變遷。

一、DeepSeek 的技術解構:算法創新如何「繞過」硬體限制

要理解 DeepSeek 現象的地緣政治意涵,首先需要理解其技術成就的本質。DeepSeek-V3(R1 的基礎模型)是一個 671B 參數的混合專家模型(Mixture of Experts, MoE),但每次推論僅激活 37B 參數——這意味著它的實際運算需求遠低於其名義參數量所暗示的規模。[3]

DeepSeek 的核心技術創新集中在三個方面。第一,多頭潛注意力機制(Multi-head Latent Attention, MLA)——通過將注意力鍵值(key-value)壓縮至低維潛空間,大幅減少推論時的記憶體需求與計算成本。傳統的多頭注意力機制(Multi-Head Attention)是 Transformer 架構的核心瓶頸之一;MLA 以優雅的數學手法,在維持模型表現的同時將這個瓶頸顯著緩解。[3]

第二,無輔助損失的負載平衡策略(Auxiliary-loss-free Load Balancing)。在混合專家模型中,如何確保不同專家(expert)之間的工作負載均衡分配是一個長期的工程難題。傳統方法使用輔助損失函數來懲罰不均衡的分配,但這會犧牲模型的最終表現。DeepSeek 提出了一種基於偏差項的動態調整機制,在不犧牲模型品質的前提下實現負載均衡。[3]

第三,也是最具策略意涵的創新——FP8 混合精度訓練框架。在美國出口管制下,DeepSeek 據報導使用的是 NVIDIA H800 GPU(H100 的對華出口合規版本,互聯頻寬被限制至 400 GB/s)。[4]通過開發 FP8(8 位浮點數)混合精度訓練框架,DeepSeek 將訓練的浮點運算精度從業界標準的 BF16(16 位)降至 FP8,使每塊 GPU 的有效運算能力幾乎翻倍——這從根本上改變了「算力限制」的計算公式。

DeepSeek-R1 在 V3 的基礎上,進一步引入了大規模強化學習(Reinforcement Learning, RL),使模型發展出類似「思維鏈」(Chain of Thought)的推理能力——不僅給出答案,還展示推理過程。[1]最引人注目的是 DeepSeek-R1-Zero 實驗——研究者發現,即使不使用任何人類標注的監督式微調數據,僅通過純粹的強化學習,模型就能「自發地」發展出推理行為。這個發現挑戰了 AI 研究界對於推理能力必須通過精心設計的訓練數據才能「教會」模型的普遍假設。

二、「成本衝擊」的真實與迷思:一場話語權的爭奪

DeepSeek 聲稱的 557 萬美元訓練成本,成為了全球媒體報導的焦點數字。然而,這個數字需要審慎解讀。

首先,557 萬美元僅計算了 V3 最終訓練階段的 GPU 租賃成本(基於 2,048 顆 H800 GPU、14.8 萬億 token 的訓練量、約兩個月的訓練時間)。[3]它不包括:前期的研究與實驗成本、數據收集與處理成本、人才薪酬、多次失敗的訓練實驗、以及 R1 階段的強化學習訓練成本。一些分析師估計,如果計入這些間接成本,DeepSeek-R1 的全生命週期開發成本可能在 3,000 萬至 1 億美元之間——仍然遠低於 OpenAI 或 Google 的同級模型,但遠高於媒體聳動的「557 萬美元」標題。[5]

其次,有報導指出 DeepSeek 的母公司幻方量化(High-Flyer Capital Management)可能在美國出口管制生效前,已採購了超過 10,000 顆 NVIDIA A100 GPU。[6]這些高端 GPU 在研發階段的實驗中扮演了什麼角色,外界無從得知。簡言之,「557 萬美元」更像是一個精心框架的行銷數字,而非一個全面的成本核算。

但即使考慮了這些調整因素,DeepSeek 的成就仍然具有結構性的意義。它證明了一個關鍵命題:算法效率的提升可以部分替代硬體的暴力堆疊。如果用一個類比:美國的 AI 策略類似於在軍事競賽中控制對手的鋼鐵供應,期望藉此限制對手造船的能力。DeepSeek 的回應是——我們不需要更大的船,我們需要更好的船。[7]

這個命題的政策含意是深遠的。正如 Epoch AI 研究所的分析指出,在過去兩年中,頂級模型的訓練計算效率(compute efficiency)每年提升約 2-3 倍——這意味著相同的模型性能,每年僅需一半至三分之一的計算資源。[8]如果這個趨勢持續,出口管制所能提供的「時間窗口」將持續縮短。

三、開源 AI 的地緣政治經濟學:一個多維賽局

DeepSeek 選擇以 MIT 授權開源其模型權重,這個決策背後有著複雜的賽局考量

從經濟學角度,開源是一種「平台策略」——通過免費提供基礎模型,建立生態系統黏性,從而在 API 服務、企業客製化等衍生市場獲利。Meta 的 Llama 系列證明了這個模式的可行性:Llama 3.1 於 2024 年發布後,迅速成為全球使用量最大的開源 LLM,Meta 藉此在 AI 開發者社群中建立了強大的品牌資產和生態系統控制力。[9]

然而,中國 AI 企業的開源決策還有一個額外的地緣政治維度。在美國持續加強晶片出口管制的背景下,中國 AI 企業面臨一個囚徒困境(Prisoner's Dilemma):如果閉源,則受限於國內市場,無法參與全球 AI 標準的制定;如果開源,則可以通過廣泛的全球採用來影響 AI 發展的技術路徑,同時使出口管制的效果進一步被稀釋——因為一旦模型權重公開,任何人都可以在任何硬體上進行推論和微調。[10]

DeepSeek 的開源策略可以理解為一種「技術外交」——通過提供高品質的免費模型,建立全球依賴關係,進而在國際 AI 治理的話語權競爭中獲得籌碼。這與冷戰時期蘇聯通過技術援助擴展地緣影響力的邏輯有相似之處,但在數位時代,這種影響力的傳播速度是指數級的。

目前的全球開源 AI 生態系統已形成四極格局:美國的 Meta(Llama 系列)、法國的 Mistral、中國的 DeepSeek/阿里雲 Qwen、以及由各國學術機構主導的社群模型(如 BigScience 的 BLOOM)。[11]每一極的開源動機各不相同——Meta 是為了對抗 OpenAI 和 Google 的閉源壟斷;Mistral 代表歐洲的技術主權訴求;DeepSeek 兼具商業擴張與地緣政治考量;社群模型則體現了學術界對 AI 民主化的理想主義。這個多極格局意味著:開源 AI 不再是一個單純的技術運動,它已成為大國科技博弈的新戰場。

四、美國的戰略困境:晶片管制的「莫比烏斯帶」

DeepSeek 的崛起暴露了美國 AI 晶片出口管制政策的結構性矛盾。

自 2022 年 10 月美國商務部工業與安全局(BIS)發布首輪對華先進運算出口管制以來,[4]美國已進行了多次「補洞」——限制 NVIDIA H100 的對華銷售後,中國轉向合規版 H800 和 A800;當 BIS 進一步收緊標準後,華為推出了自研的昇騰 910B 晶片;而 DeepSeek 的算法創新,則從根本上挑戰了「限制算力即限制 AI 能力」的假設。

這形成了一個政策的「莫比烏斯帶」(Möbius strip):管制刺激了被管制方的自主創新,而自主創新削弱了管制的有效性,這又促使管制方進一步加強管制——周而復始。[12]更值得注意的是,每一輪加強管制都伴隨著顯著的附帶損害(collateral damage)——NVIDIA 因失去中國市場(曾佔其數據中心收入的 25%)而承受財務壓力;盟國(如荷蘭的 ASML、日本的東京威力科創)因被要求配合管制而面臨商業損失與外交摩擦。[13]

川普政府在 2025 年 1 月上任後的政策走向,進一步增加了這一局勢的不確定性。一方面,川普撤銷了拜登政府的 AI 行政命令,釋放了「放鬆 AI 監管」的訊號;另一方面,其對華政策團隊傾向於更激進的技術脫鉤。[14]這種「對內放鬆、對外強硬」的組合,可能導致一個弔詭的結果——美國企業在更寬鬆的國內環境中加速創新,但更嚴格的出口管制可能進一步刺激中國的自主替代,最終加速而非延緩全球 AI 技術的擴散。

五、開源 AI 的雙面刃:民主化的承諾與風險

開源 AI 模型的擴散帶來了兩個層面的影響,需要分開評估。

積極面,開源 AI 正在實質性地降低 AI 開發的門檻。根據 Hugging Face 的統計,截至 2025 年底,平台上已託管超過 100 萬個模型,月活躍開發者超過 500 萬人。[15]開源模型使得中小企業、學術機構、甚至個人開發者能夠在不依賴科技巨頭 API 的前提下,建構自己的 AI 應用。這對於發展中國家尤為重要——它們可能無力負擔 OpenAI 或 Google 的企業級定價,但可以基於開源模型建立符合本地需求的應用。在某種意義上,開源 AI 是一種技術民主化的力量——它挑戰了「只有最富有的國家和最大的企業才能參與 AI 革命」的權力結構。

風險面,開源模型一旦發布,就無法被「撤回」——它可以被任何人下載、修改、並移除安全護欄(safety guardrails)。Meta 內部洩露的 Llama 初始版本在發布後數日內就被去除了安全限制。[16]這引發了嚴肅的安全關切:開源推理模型是否可能被用於加速生物武器設計、網路攻擊工具開發、或大規模虛假資訊的生成?這不是一個假設性的風險——AI 安全研究機構 RAND Corporation 的分析指出,目前的開源 LLM 已能夠為具備基礎知識的個人提供顯著的「能力提升」,特別是在化學與生物學領域的知識獲取方面。[17]

歐盟 AI 法案試圖在這兩個面向之間取得平衡。法案第 2 條為「自由且開源」的 AI 模型提供了部分豁免——如果模型以開放授權發布且不作為商業 AI 系統的一部分,則可免於部分合規義務。但具有「系統性風險」的開源模型仍然需要遵守相關義務。[18]這個折衷方案反映了一個根本性的治理困境:開源是一種全球公共財(global public good),但全球公共財的治理需要全球性的協調機制——而在當前的地緣政治氣候下,這種協調機制幾乎不可能建立。

六、台灣的戰略機遇:在開源生態中的定位

台灣在全球 AI 開源生態系統中的角色,需要從其獨特的產業結構出發進行思考。

第一個維度:硬體基礎設施。開源 AI 的普及並不減少對先進晶片的需求——事實上,它可能增加需求。當更多組織和個人能夠使用開源模型進行推論和微調時,全球對 AI 推論晶片的需求將進一步擴大。台積電的先進製程(3nm、2nm)和先進封裝技術(CoWoS),在可預見的未來仍然是全球 AI 硬體供應鏈中最難以替代的環節。[19]DeepSeek 的成功不是「不需要好晶片」的證明,而是「需要用更聰明的方式使用好晶片」的證明——這實際上強化了台灣晶片製造的價值,因為效率導向的訓練方法對晶片品質的要求更高,而非更低。

第二個維度:繁體中文 AI 生態。目前主流的開源 LLM 在繁體中文的表現普遍遜於英文和簡體中文。[20]這為台灣創造了一個獨特的機會窗口——基於開源基礎模型,針對繁體中文、台灣法律體系、台灣產業術語等進行專業化微調,建立服務台灣市場(以及全球繁體中文使用者)的垂直模型。國家科學及技術委員會(國科會)旗下的 TAIDE 計畫已在這個方向上邁出了第一步,但需要更大規模的產業參與和更持續的投資。

第三個維度:作為「可信任的第三方」。在中美技術脫鉤加劇的背景下,許多國家和企業不願完全依賴美國或中國的 AI 生態系統。台灣——作為一個成熟民主國家,具有強大的技術能力、可靠的智慧財產權保護、以及不會「隨政治風向改變規則」的制度穩定性——有潛力成為全球 AI 供應鏈中的「可信任第三方」。這不是要取代美國或中國的地位,而是在兩者之間提供一個安全的「第三條路徑」。

當然,這個戰略定位需要制度配套。台灣需要在AI 治理資料跨境傳輸、以及智慧財產權保護等方面,建立與國際標準接軌的制度框架——這不僅是合規的需要,更是建立國際信任的基礎。

七、結語:從算力競賽到智慧競賽

DeepSeek 現象揭示的最根本的洞見或許是:AI 競爭的本質正在從「算力競賽」(compute race)轉向「智慧競賽」(intelligence race)——不是誰能堆疊最多的 GPU,而是誰能最聰明地使用有限的資源。這個轉變對全球 AI 格局的影響是結構性的。

對美國而言,它意味著出口管制雖然仍然具有短期的戰略價值,但不能作為維持 AI 領先地位的唯一或主要工具。真正的護城河在於基礎研究的深度、人才生態系統的厚度、以及制度環境的開放度。[21]

對中國而言,DeepSeek 的成功在短期內是一次信心提振,但也帶來了新的挑戰——如何在開源承諾與國家安全考量之間取得平衡;如何在算法創新的領先中維持持續的動能;以及如何回應因 DeepSeek 成功而可能加碼的出口管制。

對台灣而言,DeepSeek 時刻是一個清晰的提醒:台灣的 AI 戰略不能僅僅停留在「為全世界製造 AI 晶片」的定位上。在算法效率快速提升的趨勢下,台灣需要同時在軟體生態系統(繁體中文模型、應用層)與制度建構(AI 治理、資料法規)上建立深度,才能確保其在全球 AI 供應鏈中的長期不可替代性。

開源 AI 的地緣政治是一場正在進行的賽局——它沒有終局均衡,只有不斷演化的策略互動。在這個賽局中,勝出的不是最強大的玩家,而是最具適應力的玩家。

References

  1. DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948
  2. Reuters. (2025). Nvidia loses nearly $600 billion in market value amid DeepSeek shock. reuters.com
  3. DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437
  4. U.S. Department of Commerce, Bureau of Industry and Security. (2022). Implementation of Additional Export Controls: Certain Advanced Computing and Semiconductor Manufacturing Items. 87 FR 62186. Federal Register
  5. SemiAnalysis. (2025). DeepSeek: The Real Cost Behind the Headlines. semianalysis.com
  6. Financial Times. (2025). DeepSeek: the Chinese AI group that shook the world. ft.com
  7. Ding, J. (2025). DeepSeek and the Limits of Export Controls. ChinaTalk. chinatalk.media
  8. Epoch AI. (2025). Trends in AI Training Compute Efficiency. epochai.org
  9. Meta AI. (2024). Introducing Llama 3.1: Our most capable openly available model. ai.meta.com
  10. Hwang, T. (2025). Open Source AI and National Security. Center for Security and Emerging Technology (CSET). georgetown.edu
  11. Bommasani, R. et al. (2023). On the Opportunities and Risks of Foundation Models. Stanford CRFM. arXiv:2108.07258
  12. Allen, G. C. (2025). China's New AI Capabilities and the Failure of Export Controls. Center for Strategic and International Studies. csis.org
  13. Miller, C. (2022). Chip War: The Fight for the World's Most Critical Technology. New York: Scribner.
  14. The White House. (2025). Executive Order: Removing Barriers to American Leadership in Artificial Intelligence. whitehouse.gov
  15. Hugging Face. (2025). The State of Open Source AI 2025. huggingface.co
  16. Seger, E. et al. (2023). Open-Sourcing Highly Capable Foundation Models. Centre for the Governance of AI. governance.ai
  17. Mouton, C. et al. (2024). The Operational Risks of AI in Large-Scale Biological Attacks. RAND Corporation. rand.org
  18. European Parliament and Council. (2024). Regulation (EU) 2024/1689 — Artificial Intelligence Act, Article 2. eur-lex.europa.eu
  19. 台灣積體電路製造股份有限公司. (2025). 2025 年報. tsmc.com
  20. 國家科學及技術委員會. (2025). TAIDE 可信任生成式 AI 對話引擎計畫. taide.tw
  21. Amodei, D. (2025). On DeepSeek and Export Controls. Anthropic Blog. anthropic.com
返回洞見