2025 年 1 月 20 日,就在唐納·川普(Donald Trump)宣誓就任美國第 47 任總統的同一天,一家中國 AI 公司悄然發布了一個將在數日內震動全球資本市場的模型。深度求索(DeepSeek)發布的 DeepSeek-R1 在數學推理、程式設計與科學問題解決等基準測試中,達到或超越了 OpenAI 的 o1 模型——而據報導,其訓練成本僅約 557 萬美元,不到美國同級模型數億美元投資的零頭。[1]1 月 27 日,美國股市出現劇烈震盪:NVIDIA 單日市值蒸發約 5,930 億美元,創下美國股市歷史上單一公司最大單日跌幅。[2]這個被稱為「DeepSeek 時刻」的事件,揭示了一個令人不安的事實:美國自 2022 年 10 月起實施的一系列半導體出口管制——旨在限制中國取得先進 AI 運算能力的政策——可能並未如預期般有效地遏制中國的 AI 發展。如果中國能以更少的算力、更低的成本,訓練出不遜於美國頂級實驗室的模型,那麼圍繞 AI 晶片的地緣政治博弈的整個戰略前提就需要重新審視。本文試圖從地緣政治賽局、開源經濟學與技術主權三重維度,剖析這個正在重塑全球 AI 格局的結構性變遷。
一、DeepSeek 的技術解構:算法創新如何「繞過」硬體限制
要理解 DeepSeek 現象的地緣政治意涵,首先需要理解其技術成就的本質。DeepSeek-V3(R1 的基礎模型)是一個 671B 參數的混合專家模型(Mixture of Experts, MoE),但每次推論僅激活 37B 參數——這意味著它的實際運算需求遠低於其名義參數量所暗示的規模。[3]
DeepSeek 的核心技術創新集中在三個方面。第一,多頭潛注意力機制(Multi-head Latent Attention, MLA)——通過將注意力鍵值(key-value)壓縮至低維潛空間,大幅減少推論時的記憶體需求與計算成本。傳統的多頭注意力機制(Multi-Head Attention)是 Transformer 架構的核心瓶頸之一;MLA 以優雅的數學手法,在維持模型表現的同時將這個瓶頸顯著緩解。[3]
第二,無輔助損失的負載平衡策略(Auxiliary-loss-free Load Balancing)。在混合專家模型中,如何確保不同專家(expert)之間的工作負載均衡分配是一個長期的工程難題。傳統方法使用輔助損失函數來懲罰不均衡的分配,但這會犧牲模型的最終表現。DeepSeek 提出了一種基於偏差項的動態調整機制,在不犧牲模型品質的前提下實現負載均衡。[3]
第三,也是最具策略意涵的創新——FP8 混合精度訓練框架。在美國出口管制下,DeepSeek 據報導使用的是 NVIDIA H800 GPU(H100 的對華出口合規版本,互聯頻寬被限制至 400 GB/s)。[4]通過開發 FP8(8 位浮點數)混合精度訓練框架,DeepSeek 將訓練的浮點運算精度從業界標準的 BF16(16 位)降至 FP8,使每塊 GPU 的有效運算能力幾乎翻倍——這從根本上改變了「算力限制」的計算公式。
DeepSeek-R1 在 V3 的基礎上,進一步引入了大規模強化學習(Reinforcement Learning, RL),使模型發展出類似「思維鏈」(Chain of Thought)的推理能力——不僅給出答案,還展示推理過程。[1]最引人注目的是 DeepSeek-R1-Zero 實驗——研究者發現,即使不使用任何人類標注的監督式微調數據,僅通過純粹的強化學習,模型就能「自發地」發展出推理行為。這個發現挑戰了 AI 研究界對於推理能力必須通過精心設計的訓練數據才能「教會」模型的普遍假設。
二、「成本衝擊」的真實與迷思:一場話語權的爭奪
DeepSeek 聲稱的 557 萬美元訓練成本,成為了全球媒體報導的焦點數字。然而,這個數字需要審慎解讀。
首先,557 萬美元僅計算了 V3 最終訓練階段的 GPU 租賃成本(基於 2,048 顆 H800 GPU、14.8 萬億 token 的訓練量、約兩個月的訓練時間)。[3]它不包括:前期的研究與實驗成本、數據收集與處理成本、人才薪酬、多次失敗的訓練實驗、以及 R1 階段的強化學習訓練成本。一些分析師估計,如果計入這些間接成本,DeepSeek-R1 的全生命週期開發成本可能在 3,000 萬至 1 億美元之間——仍然遠低於 OpenAI 或 Google 的同級模型,但遠高於媒體聳動的「557 萬美元」標題。[5]
其次,有報導指出 DeepSeek 的母公司幻方量化(High-Flyer Capital Management)可能在美國出口管制生效前,已採購了超過 10,000 顆 NVIDIA A100 GPU。[6]這些高端 GPU 在研發階段的實驗中扮演了什麼角色,外界無從得知。簡言之,「557 萬美元」更像是一個精心框架的行銷數字,而非一個全面的成本核算。
但即使考慮了這些調整因素,DeepSeek 的成就仍然具有結構性的意義。它證明了一個關鍵命題:算法效率的提升可以部分替代硬體的暴力堆疊。如果用一個類比:美國的 AI 策略類似於在軍事競賽中控制對手的鋼鐵供應,期望藉此限制對手造船的能力。DeepSeek 的回應是——我們不需要更大的船,我們需要更好的船。[7]
這個命題的政策含意是深遠的。正如 Epoch AI 研究所的分析指出,在過去兩年中,頂級模型的訓練計算效率(compute efficiency)每年提升約 2-3 倍——這意味著相同的模型性能,每年僅需一半至三分之一的計算資源。[8]如果這個趨勢持續,出口管制所能提供的「時間窗口」將持續縮短。
三、開源 AI 的地緣政治經濟學:一個多維賽局
DeepSeek 選擇以 MIT 授權開源其模型權重,這個決策背後有著複雜的賽局考量。
從經濟學角度,開源是一種「平台策略」——通過免費提供基礎模型,建立生態系統黏性,從而在 API 服務、企業客製化等衍生市場獲利。Meta 的 Llama 系列證明了這個模式的可行性:Llama 3.1 於 2024 年發布後,迅速成為全球使用量最大的開源 LLM,Meta 藉此在 AI 開發者社群中建立了強大的品牌資產和生態系統控制力。[9]
然而,中國 AI 企業的開源決策還有一個額外的地緣政治維度。在美國持續加強晶片出口管制的背景下,中國 AI 企業面臨一個囚徒困境(Prisoner's Dilemma):如果閉源,則受限於國內市場,無法參與全球 AI 標準的制定;如果開源,則可以通過廣泛的全球採用來影響 AI 發展的技術路徑,同時使出口管制的效果進一步被稀釋——因為一旦模型權重公開,任何人都可以在任何硬體上進行推論和微調。[10]
DeepSeek 的開源策略可以理解為一種「技術外交」——通過提供高品質的免費模型,建立全球依賴關係,進而在國際 AI 治理的話語權競爭中獲得籌碼。這與冷戰時期蘇聯通過技術援助擴展地緣影響力的邏輯有相似之處,但在數位時代,這種影響力的傳播速度是指數級的。
目前的全球開源 AI 生態系統已形成四極格局:美國的 Meta(Llama 系列)、法國的 Mistral、中國的 DeepSeek/阿里雲 Qwen、以及由各國學術機構主導的社群模型(如 BigScience 的 BLOOM)。[11]每一極的開源動機各不相同——Meta 是為了對抗 OpenAI 和 Google 的閉源壟斷;Mistral 代表歐洲的技術主權訴求;DeepSeek 兼具商業擴張與地緣政治考量;社群模型則體現了學術界對 AI 民主化的理想主義。這個多極格局意味著:開源 AI 不再是一個單純的技術運動,它已成為大國科技博弈的新戰場。
四、美國的戰略困境:晶片管制的「莫比烏斯帶」
DeepSeek 的崛起暴露了美國 AI 晶片出口管制政策的結構性矛盾。
自 2022 年 10 月美國商務部工業與安全局(BIS)發布首輪對華先進運算出口管制以來,[4]美國已進行了多次「補洞」——限制 NVIDIA H100 的對華銷售後,中國轉向合規版 H800 和 A800;當 BIS 進一步收緊標準後,華為推出了自研的昇騰 910B 晶片;而 DeepSeek 的算法創新,則從根本上挑戰了「限制算力即限制 AI 能力」的假設。
這形成了一個政策的「莫比烏斯帶」(Möbius strip):管制刺激了被管制方的自主創新,而自主創新削弱了管制的有效性,這又促使管制方進一步加強管制——周而復始。[12]更值得注意的是,每一輪加強管制都伴隨著顯著的附帶損害(collateral damage)——NVIDIA 因失去中國市場(曾佔其數據中心收入的 25%)而承受財務壓力;盟國(如荷蘭的 ASML、日本的東京威力科創)因被要求配合管制而面臨商業損失與外交摩擦。[13]
川普政府在 2025 年 1 月上任後的政策走向,進一步增加了這一局勢的不確定性。一方面,川普撤銷了拜登政府的 AI 行政命令,釋放了「放鬆 AI 監管」的訊號;另一方面,其對華政策團隊傾向於更激進的技術脫鉤。[14]這種「對內放鬆、對外強硬」的組合,可能導致一個弔詭的結果——美國企業在更寬鬆的國內環境中加速創新,但更嚴格的出口管制可能進一步刺激中國的自主替代,最終加速而非延緩全球 AI 技術的擴散。
五、開源 AI 的雙面刃:民主化的承諾與風險
開源 AI 模型的擴散帶來了兩個層面的影響,需要分開評估。
在積極面,開源 AI 正在實質性地降低 AI 開發的門檻。根據 Hugging Face 的統計,截至 2025 年底,平台上已託管超過 100 萬個模型,月活躍開發者超過 500 萬人。[15]開源模型使得中小企業、學術機構、甚至個人開發者能夠在不依賴科技巨頭 API 的前提下,建構自己的 AI 應用。這對於發展中國家尤為重要——它們可能無力負擔 OpenAI 或 Google 的企業級定價,但可以基於開源模型建立符合本地需求的應用。在某種意義上,開源 AI 是一種技術民主化的力量——它挑戰了「只有最富有的國家和最大的企業才能參與 AI 革命」的權力結構。
在風險面,開源模型一旦發布,就無法被「撤回」——它可以被任何人下載、修改、並移除安全護欄(safety guardrails)。Meta 內部洩露的 Llama 初始版本在發布後數日內就被去除了安全限制。[16]這引發了嚴肅的安全關切:開源推理模型是否可能被用於加速生物武器設計、網路攻擊工具開發、或大規模虛假資訊的生成?這不是一個假設性的風險——AI 安全研究機構 RAND Corporation 的分析指出,目前的開源 LLM 已能夠為具備基礎知識的個人提供顯著的「能力提升」,特別是在化學與生物學領域的知識獲取方面。[17]
歐盟 AI 法案試圖在這兩個面向之間取得平衡。法案第 2 條為「自由且開源」的 AI 模型提供了部分豁免——如果模型以開放授權發布且不作為商業 AI 系統的一部分,則可免於部分合規義務。但具有「系統性風險」的開源模型仍然需要遵守相關義務。[18]這個折衷方案反映了一個根本性的治理困境:開源是一種全球公共財(global public good),但全球公共財的治理需要全球性的協調機制——而在當前的地緣政治氣候下,這種協調機制幾乎不可能建立。
六、台灣的戰略機遇:在開源生態中的定位
台灣在全球 AI 開源生態系統中的角色,需要從其獨特的產業結構出發進行思考。
第一個維度:硬體基礎設施。開源 AI 的普及並不減少對先進晶片的需求——事實上,它可能增加需求。當更多組織和個人能夠使用開源模型進行推論和微調時,全球對 AI 推論晶片的需求將進一步擴大。台積電的先進製程(3nm、2nm)和先進封裝技術(CoWoS),在可預見的未來仍然是全球 AI 硬體供應鏈中最難以替代的環節。[19]DeepSeek 的成功不是「不需要好晶片」的證明,而是「需要用更聰明的方式使用好晶片」的證明——這實際上強化了台灣晶片製造的價值,因為效率導向的訓練方法對晶片品質的要求更高,而非更低。
第二個維度:繁體中文 AI 生態。目前主流的開源 LLM 在繁體中文的表現普遍遜於英文和簡體中文。[20]這為台灣創造了一個獨特的機會窗口——基於開源基礎模型,針對繁體中文、台灣法律體系、台灣產業術語等進行專業化微調,建立服務台灣市場(以及全球繁體中文使用者)的垂直模型。國家科學及技術委員會(國科會)旗下的 TAIDE 計畫已在這個方向上邁出了第一步,但需要更大規模的產業參與和更持續的投資。
第三個維度:作為「可信任的第三方」。在中美技術脫鉤加劇的背景下,許多國家和企業不願完全依賴美國或中國的 AI 生態系統。台灣——作為一個成熟民主國家,具有強大的技術能力、可靠的智慧財產權保護、以及不會「隨政治風向改變規則」的制度穩定性——有潛力成為全球 AI 供應鏈中的「可信任第三方」。這不是要取代美國或中國的地位,而是在兩者之間提供一個安全的「第三條路徑」。
當然,這個戰略定位需要制度配套。台灣需要在AI 治理、資料跨境傳輸、以及智慧財產權保護等方面,建立與國際標準接軌的制度框架——這不僅是合規的需要,更是建立國際信任的基礎。
七、結語:從算力競賽到智慧競賽
DeepSeek 現象揭示的最根本的洞見或許是:AI 競爭的本質正在從「算力競賽」(compute race)轉向「智慧競賽」(intelligence race)——不是誰能堆疊最多的 GPU,而是誰能最聰明地使用有限的資源。這個轉變對全球 AI 格局的影響是結構性的。
對美國而言,它意味著出口管制雖然仍然具有短期的戰略價值,但不能作為維持 AI 領先地位的唯一或主要工具。真正的護城河在於基礎研究的深度、人才生態系統的厚度、以及制度環境的開放度。[21]
對中國而言,DeepSeek 的成功在短期內是一次信心提振,但也帶來了新的挑戰——如何在開源承諾與國家安全考量之間取得平衡;如何在算法創新的領先中維持持續的動能;以及如何回應因 DeepSeek 成功而可能加碼的出口管制。
對台灣而言,DeepSeek 時刻是一個清晰的提醒:台灣的 AI 戰略不能僅僅停留在「為全世界製造 AI 晶片」的定位上。在算法效率快速提升的趨勢下,台灣需要同時在軟體生態系統(繁體中文模型、應用層)與制度建構(AI 治理、資料法規)上建立深度,才能確保其在全球 AI 供應鏈中的長期不可替代性。
開源 AI 的地緣政治是一場正在進行的賽局——它沒有終局均衡,只有不斷演化的策略互動。在這個賽局中,勝出的不是最強大的玩家,而是最具適應力的玩家。
References
- DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948
- Reuters. (2025). Nvidia loses nearly $600 billion in market value amid DeepSeek shock. reuters.com
- DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437
- U.S. Department of Commerce, Bureau of Industry and Security. (2022). Implementation of Additional Export Controls: Certain Advanced Computing and Semiconductor Manufacturing Items. 87 FR 62186. Federal Register
- SemiAnalysis. (2025). DeepSeek: The Real Cost Behind the Headlines. semianalysis.com
- Financial Times. (2025). DeepSeek: the Chinese AI group that shook the world. ft.com
- Ding, J. (2025). DeepSeek and the Limits of Export Controls. ChinaTalk. chinatalk.media
- Epoch AI. (2025). Trends in AI Training Compute Efficiency. epochai.org
- Meta AI. (2024). Introducing Llama 3.1: Our most capable openly available model. ai.meta.com
- Hwang, T. (2025). Open Source AI and National Security. Center for Security and Emerging Technology (CSET). georgetown.edu
- Bommasani, R. et al. (2023). On the Opportunities and Risks of Foundation Models. Stanford CRFM. arXiv:2108.07258
- Allen, G. C. (2025). China's New AI Capabilities and the Failure of Export Controls. Center for Strategic and International Studies. csis.org
- Miller, C. (2022). Chip War: The Fight for the World's Most Critical Technology. New York: Scribner.
- The White House. (2025). Executive Order: Removing Barriers to American Leadership in Artificial Intelligence. whitehouse.gov
- Hugging Face. (2025). The State of Open Source AI 2025. huggingface.co
- Seger, E. et al. (2023). Open-Sourcing Highly Capable Foundation Models. Centre for the Governance of AI. governance.ai
- Mouton, C. et al. (2024). The Operational Risks of AI in Large-Scale Biological Attacks. RAND Corporation. rand.org
- European Parliament and Council. (2024). Regulation (EU) 2024/1689 — Artificial Intelligence Act, Article 2. eur-lex.europa.eu
- 台灣積體電路製造股份有限公司. (2025). 2025 年報. tsmc.com
- 國家科學及技術委員會. (2025). TAIDE 可信任生成式 AI 對話引擎計畫. taide.tw
- Amodei, D. (2025). On DeepSeek and Export Controls. Anthropic Blog. anthropic.com