美國科技出口管制的三個面向:從晶片戰到AI生態系的權力重組

晶片戰爭的本質不是零和競爭,而是關於「誰能定義下一代的運算模式」

過去:管制方式的演變和技術較量

美國限制對中國的科技出口,最早是從冷戰時期的《瓦聖納協定》開始,但真的開始有完整戰略是從 2018 年中美貿易戰才開始的。2022 年 10 月拜登政府提出了「有史以來最嚴格的禁令」,限制出口先進製程的晶片製造設備和高效能的 AI 晶片。不過當時的規定有很明顯的漏洞,NVIDIA 馬上就推出了特別為中國市場設計的 H800 晶片,把晶片的連接頻寬從 H100 的 600GB/s 降到 400GB/s 來符合美國的規定,但還是保有 90% 的運算效能。

這種「鑽漏洞」的情況說明了早期管制的問題:想要壓制中國的尖端科技發展,卻又想要顧及美國企業的商業利益。像是 DeepSeek 這些中國的 AI 公司就是利用這段政策還不完整的時期,用 H800 來建立他們的運算基礎。這種「你來我往」的情況一直到 2023 年 10 月新規定出來才有改變,美國開始直接對 AI 晶片的運算密度(TeraFLOPs)和連接效能設定明確的限制,逼得 NVIDIA 只能推出功能被削減的 H20 晶片。

現在:效能差距和生態系統的壓力

目前的管制形成了三個層面的差距:

  • 運算能力的系統性差距:H20 在訓練效能只有 H100 的 15%,但還保留了 80% 的推理能力。這種「訓練和推理不對稱的管制」是故意讓中國可以維持現有的 AI 服務,但阻止他們訓練新一代的大模型。
  • 記憶體技術的時間差:2024 年 12 月生效的高頻寬記憶體(HBM)出口限制,會讓技術差距更大。現在的 H20 還在用『SK 海力士(也有資訊說是美光)』的 HBM3e,但下一代的 HBM4 可能就完全不能出口了,這對需要處理長文本推理(像是超過 32k Tokens)的 AI 應用會造成很大的限制。
  • 雲端服務的迂迴方式:雖然實體晶片的管制越來越嚴格,但中國企業還是可以透過 AWS、Azure 這些西方的雲端平台間接取得運算能力。這種「租用運算能力」的方式正在產生新型態的規避方法,根據路透社的調查,2023 年中國企業在海外雲端的 AI 支出比去年增加了 47%。

值得注意的是,現在中國還享有「管制優惠期」:現有的資料中心大約有 5 萬顆 A100/H800 晶片,足夠訓練參數量 1.7 兆以下的模型(GPT-4 是 1.8 兆)。但當業界進入 10 兆參數的時代,這些存貨的效益會快速下降。就像 DeepSeek 創辦人梁文峰說的:「我們需要 4 倍的運算能力才能達到相同的效果」,這種效率的劣勢在模型更新時會造成越來越大的差距。

DeepSeek API 推理模型最高 32k CoT Token 限制及其背後的硬體瓶頸(?)

DeepSeek API 推理模型的 CoT(Chain of Thought)token 限制設定為 32k,這背後可能存在多重因素的考量,其中最主要的可能是當前硬體條件,尤其是高頻寬記憶體(HBM)的容量和頻寬限制。而 2024 年 12 月生效的 HBM 出口限制,將進一步加劇技術差距,對需要處理長文本推理(例如超過 32k Tokens)的 AI 應用造成顯著的負面影響。

硬體限制的物理傳導鏈:從「記憶體牆」到 HBM 堆疊

  • 「記憶體牆」效應與長序列推理瓶頸: 處理 32k tokens 的上下文窗口,需在單次推理中暫存大量參數數據,包括模型權重、Activations 以及梯度(gradients)。以一個 7B 參數量的模型為例,在 FP16 精度下,僅僅是模型權重就需佔用 14GB 記憶體空間 (7B * 2 bytes)。此外,還需考慮 KV Cache 以及推理過程中的中間計算結果。雖然這部分數據量不易精確計算,但可以推測,僅僅是某一組件所需的暫存數據就可能超過 1.2GB。這還是在忽略了 CoT 中間步驟所帶來的額外儲存開銷的前提下。當序列長度超過 32k 時,由於 CoT 需要維護更長的推理鏈,所需暫存的數據量將進一步攀升,記憶體延遲 (latency) 會隨之指數級上升,導致計算單元利用率 (utilization rate) 驟降,可能從 75% 降至 30% 以下。這種「記憶體饑荒」現象迫使開發者必須在模型設計階段設置硬性的 token 上限,以避免災難性的性能下降。
  • HBM 堆疊限制與容量瓶頸: 當前用於 AI 加速的晶片,例如輝達為中國市場特供的 H20,雖然其具體使用的 HBM 型號尚有爭議(有報導稱其使用 SK 海力士的 HBM3,也以人說是美光的 HBM3e),但這並不影響我們探討其受到的容量限制。以普遍的認知來說,6 層 HBM3(e) 堆疊技術能夠提供約 24GB 的容量。這個容量恰好可以勉強容納 32k tokens 的完整計算圖(computation graph),這也解釋了為何 32k 成為一個常見的 token 限制。若欲擴展至 64k tokens,至少需要 48GB 的 HBM 容量,而這必須依賴下一代 HBM4 的 12 層堆疊技術。然而,該技術已被列入 2024 年美國出口管制清單,這將嚴重阻礙中國獲取最先進的 HBM 技術。

未來:管制影響的長期效應和全球AI權力的重組

展望2025年後的科技地緣較量,有三個重要趨勢:

  • 合成數據競賽:當實體晶片取得受限時,中國可能會轉向「運算能力替代策略』,透過合成數據生成(synthetic data)來減少訓練需求。但這種策略會受到「自我限制效應」的影響:合成數據的品質取決於現有模型的能力,可能會讓技術進步陷入局部最佳的困境。
  • 分散式運算網絡:中國正在加速布局「全國產化 AI 鏈」,把華為昇騰 910B 晶片(效能大約是 A100 的 80%)和長鑫存儲的 HBM 技術整合在一起。如果這種「去中心化運算池」能突破連接技術的瓶頸,可能會形成一個和西方平行的 AI 生態系統。
  • 演算法軍備競賽:美國企業採取技術保密(像是 OpenAI 把模型變成黑盒子)和中國企業採取開源策略(像是 DeepSeek 公開模型參數),正在重塑 AI 競爭的模式。前者是鞏固技術障礙,後者則是想透過社群合作來突破硬體限制,這種「不對稱競爭」可能會產生新的創新路徑。

    但管制真正厲害的地方在於「生態系統窒息」:當中國企業因為晶片效能差距而增加 30% 的部署成本,會直接影響他們商業化的能力。例如要維持和 ChatGPT 一樣規模的用戶量級服務,中國企業需要部署 3 倍的推理叢集,這對電力基礎設施和營運資金都是很大的負擔。更重要的是,部署運算能力不只是用來服務終端用戶,還是用來產生對抗訓練數據、建立 AI 能力回饋循環的關鍵資源 – 這正是美國管制想要切斷的「AI 發展根基」。

    管制不是結束,而是新競賽的開始

    從歷史角度來看,科技管制從來都不能完全阻止技術擴散,但能重塑競爭的時空條件。目前美國的策略本質上是「用空間換取時間」:透過3-5年的運算能力差距期,完成兩個布局:

    • 建立以 Chip 4 聯盟為核心的半導體防線。
    • 加速軍民結合的AI技術突破(像是 OpenAI 和國防部的深度合作)。

    對中國來說,這場較量正在測試「自主創新」的極限:就算中芯國際達到 7nm 製程的突破,如果沒有 EUV 光刻機和先進封裝技術,還是很難突破 3D 晶片堆疊的物理限制。而 DeepSeek 的例子更說明了殘酷的現實,在演算法方面,中國團隊已經展現出可以追上西方的效率(他們的 MoE 模型參數使用率達到 85%),但當硬體基礎出現 4 倍效率差距時,這種局部優勢最終會被系統性差距吞噬。

    未來真正會改變戰略的因素,可能是量子運算和神經形態晶片等顛覆性技術的突破時間點。當現有的矽基半導體體系被新模式取代,現在精心建立的管制防線可能會立刻消失。這提醒我們:晶片戰爭的本質不是零和競爭,而是關於「誰能定義下一代的運算模式」

    在這場重新定義物理法則的競賽中,真正的開始才剛剛起步。

    Leave a Comment

    Your email address will not be published. Required fields are marked *