挑戰者來了！瞄準輝達的王座

Table of Contents

強敵環伺？

在人工智慧的遊戲中，別忽視這些新興勢力

不誇張地說，輝達在人工智慧領域的主導地位難以超越。成立於1993年的輝達，最初在當時新興的個人電腦圖形處理器（GPU）領域嶄露頭角。但讓輝達一躍成為世界最有價值公司之一的，卻是它的人工智慧晶片，而非個人電腦圖形硬體。事實證明，輝達的GPU在人工智慧領域也表現卓越。因此，其股票價值比2020年初時高出15倍以上；營收從2019財年的約120億美元飆升至2024年的600億美元；而這家人工智慧巨頭的尖端晶片，如今已像沙漠中的水一樣稀少又珍貴。

Google DeepMind的人工智慧資料主管Jennifer Prendki表示，取得GPU「已經變成一個令人頭疼的問題，以至於研究人員每天都在思考這個問題。因為否則他們連做研究都沒辦法，即使他們擁有最好的模型。」相較於大多數人，Prendki對輝達的依賴較小，因為Google有自家研發的人工智慧基礎設施。但其他科技巨頭，如微軟和亞馬遜，都是輝達的大客戶，並且持續以最快的速度購買其GPU。根據新聞報導，到底誰能拿到這些晶片，為什麼能拿到，現已成為美國司法部反壟斷調查的主題。

輝達在人工智慧領域的主導地位，就像機器學習的爆炸性發展一樣，是最近才發生的事。但這其實是源自於該公司數十年來致力於將GPU建立為通用運算硬體，可用於繪圖以外的許多任務。這項努力不只包括了公司的GPU架構，該架構演變到包含了擅長加速人工智慧工作負載的「張量核心」，而且更重要的是，還包括其軟體平台CUDA，幫助開發人員充分利用硬體。

Moor Insights & Strategy的首席資料中心分析師Matt Kimball說：「他們想辦法讓每個從大學畢業的資訊科學專業學生都接受了培訓，知道如何寫CUDA程式。他們提供工具和培訓，並在研究上投入大量資金。」

於2006年發布的CUDA幫助開發人員利用輝達GPU的眾多核心。這被證明是非常重要的，尤其是在加速高度平行化的運算任務方面，包括現代生成式人工智慧。輝達在建立CUDA生態系統方面的成功，使其硬體成為人工智慧開發最容易上手的選擇。輝達的晶片可能很難買到，但比人工智慧硬體更難找到的是經驗豐富的人工智慧開發人員——而許多人都熟悉CUDA。這使得Nvidia擁有深厚且廣泛的競爭優勢來保護其業務，但這並不意味著它沒有準備挑戰的競爭對手，而且這些競爭對手的策略各不相同。在老牌公司如Advanced Micro Devices (AMD)和Intel試圖利用自家的GPU與Nvidia競爭的同時，像Cerebras和SambaNova這樣的新創公司則開發了能大幅提升生成式AI訓練和推論效率的創新晶片架構。這些公司最有可能成為Nvidia的勁敵。

AMD：另一家GPU製造商

優點：AMD的GPU是具有說服力的Nvidia替代方案

缺點：軟體生態系統無法與Nvidia的CUDA抗衡

AMD在顯示晶片領域與Nvidia競爭已近二十年。這場戰鬥有時是懸殊的。在顯示效能方面，AMD的GPU很少在銷售量或市佔率上勝過Nvidia。儘管如此，AMD的硬體仍有其優勢。該公司廣泛的GPU產品組合涵蓋了從筆電內建顯示卡到擁有超過1500億電晶體的AI資料中心GPU。該公司也是高頻寬記憶體(HBM)的早期支持者和採用者，這種記憶體現在對世界上最先進的GPU來說是不可或缺的。

「如果你看看硬體…它的表現不輸Nvidia」，Kimball提到AMD的Instinct MI325X時說道，這是Nvidia H100的競爭對手。「AMD在設計這顆晶片時做得非常出色。」

預計在今年年底推出的MI325X擁有超過1500億個電晶體和288GB的高頻寬記憶體，不過實際效能還有待證實。MI325X的前代產品MI300X贏得了微軟的讚賞，微軟採用了包括MI300X在內的AMD硬體來處理一些ChatGPT 3.5和4的服務。Meta和Dell也採用了MI300X，而Meta在開發其最新的大型語言模型Llama 3.1時也使用了這些晶片。

AMD還有一個障礙需要跨越：軟體。AMD提供了一個開源平台ROCm來幫助開發人員為其GPU編程，但它不如CUDA受歡迎。AMD意識到了這個弱點，在2024年7月同意收購歐洲最大的私人AI實驗室Silo AI，該實驗室在使用ROCm和AMD硬體進行大規模AI訓練方面有經驗。AMD還計劃收購ZT Systems，這是一家在資料中心基礎設施方面有專長的公司，以幫助該公司服務那些希望大規模部署其硬體的客戶。開發一個能與CUDA抗衡的平台並非易事，但AMD確實在努力嘗試。

Intel：軟體成功

優點：Gaudi 3 AI加速器顯示出強勁性能

缺點：下一款重要AI晶片要到2025年底才會推出

Intel所面對的挑戰和AMD剛好相反。儘管Intel缺乏與Nvidia的CUDA和AMD的ROCm完全匹配的產品，但它在2018年推出了一個開源統一程式開發平台OneAPI。不同於CUDA和ROCm，OneAPI涵蓋多種硬體類別，包括CPU、GPU和FPGA。因此，它可以幫助開發人員在任何Intel硬體上加速AI任務（以及許多其他任務）。Kimball說：「Intel有一個非常棒的軟體生態系統，可以輕鬆啟用。」

然而，至少與Nvidia和AMD相比，硬體是一個弱點。Intel的Gaudi AI加速器是Intel在2019年收購AI硬體新創公司Habana Labs的成果，已經取得了進展，最新的Gaudi 3提供了與Nvidia H100相當的效能。

不過，Intel下一代硬體的具體細節尚不明朗，這引起了一些擔憂。Moor Insights & Strategy創辦人Patrick Moorhead說：「Gaudi 3非常有能力。」但截至2024年7月，「還沒有Gaudi 4」，他說。

相反，Intel計劃轉向一個雄心勃勃的晶片，代號為Falcon Shores，採用基於晶粒的模組化架構，結合了Intel x86 CPU核心和Xe GPU核心；後者是Intel最近進軍顯示卡硬體的一部分。不過，Intel尚未透露Falcon Shores的架構和效能細節，而且預計要到2025年底才會推出。

Cerebras：更大更好

優點：晶圓級晶片提供強大的效能和每晶片記憶體容量

缺點：由於體積和成本，應用範圍較為小眾

毫無疑問，AMD和Intel是目前最有實力挑戰Nvidia的對手。他們有著設計成功晶片和建立相應程式開發平台的歷史。但在規模較小、較不成熟的參與者中，有一家公司脫穎而出：Cerebras。

這家專門為超級電腦開發AI的公司在2019年推出了Wafer Scale Engine，一個巨大的晶圓大小的矽晶片，裝有1.2兆個電晶體，引起了轟動效應。最新一代的Wafer Scale Engine 3更進一步，達到了4兆個電晶體。相比之下，Nvidia最大和最新的GPU B200「只有」2080億個電晶體。圍繞這個晶圓級怪獸建造的電腦Cerebras CS-3是Condor Galaxy 3的核心，後者將是一個由64台CS-3組成的8 exaflop的AI超級電腦。G42，一家總部位於阿布達比的集團，希望訓練下一代尖端大語言模型，將擁有這個系統。

Bernstein Research的資深分析師Stacy Rasgon說：「它比較小眾，不太通用。」「不是每個人都會買這些電腦。但他們有顧客，像是美國國防部，以及Condor Galaxy 3超級電腦。」

在多數情況下，Cerebras的WSC-3無法與Nvidia、AMD或Intel的硬體相比；它體積太大、成本太高，而且太過專業化。但它可能會給Cerebras在超級電腦領域帶來獨特的優勢，因為沒有其他公司設計與WSE同等級的晶片。

SambaNova：變形金剛中的變形金剛

優點：可配置架構幫助開發人員提升人工智慧模型效率

缺點：硬體仍需證明對大眾市場的重要性

SambaNova成立於2017年，是另一家以非傳統晶片架構處理人工智慧訓練的晶片設計公司。其旗艦產品SN40L擁有該公司稱為「可重新配置的資料流架構」，由記憶體和運算資源的磚塊組成。這些磚塊之間的連結可以即時改變，以促進大型神經網路的快速資料移動。

Prendki認為這種可客製化的晶片可能對訓練大型語言模型很有用，因為人工智慧開發人員可以為不同模型優化硬體。她說，沒有其他公司提供這種能力。

SambaNova與SN40L一起使用的軟體堆疊SambaFlow（桑巴流）也獲得了好評。Moorhead說：「在基礎設施層面，SambaNova在平台方面做得很好。」SambaFlow可以分析機器學習模型，並協助開發人員重新設定SN40L以加速模型的效能。SambaNova還有很多需要證明的，但其客戶包括軟銀和Analog Devices。

Groq：以形制功

優點：出色的人工智慧推理效能

缺點：應用目前僅限於推理

另一家在人工智慧硬體方面有獨特見解的公司是Groq。Groq的方法專注於緊密配對記憶體和運算資源，以加速大型語言模型回應提示的速度。

Moorhead說：「他們的架構非常以記憶體為基礎。記憶體與處理器緊密耦合。你需要更多節點，但每個詞元（token）的價格和效能表現驚人。」「詞元」是模型處理的基本資料單位；在大型語言模型中，通常是一個單詞或部分單詞。他說，Groq的效能更令人印象深刻，因為其晶片（稱為Language Processing Unit Inference Engine）使用的是GlobalFoundries的14奈米技術，比製造Nvidia H100的台積電技術落後數個世代。

7月，Groq發布了其晶片推理速度的展示，運行Meta的Llama 3 80億參數大型語言模型時，每秒可超過1,250個詞元。這甚至超越了SambaNova的展示，後者每秒可超過1,000個詞元。

Qualcomm：效能至上

優點：具有人工智慧功能的廣泛晶片系列

缺點：缺乏大型、尖端等級的人工智慧訓練晶片

Qualcomm以其Snapdragon系統單晶片而聞名，該晶片為Samsung Galaxy S24 Ultra和OnePlus 12等熱門Android手機提供動力，是一個可以與AMD、Intel和Nvidia平起平坐的巨頭。但與這些同行不同，該公司的 AI 策略更專注於 AI 推論和特定任務的能源效率。Anton Lokhmotov 是 AI 基準測試組織 MLCommons 的創始成員，也是專門從事 AI 優化的 Krai 公司的執行長。他表示，Qualcomm 在一項重要的基準測試中，大幅提升了 Qualcomm Cloud AI 100 伺服器的推論效能。Lokhmotov 指出，在 ResNet-50（一種影像分類基準測試）中，伺服器的效能從每瓦 180 個樣本增加到 240 個樣本，而「基本上使用同樣的伺服器硬體」。

Lokhmotov 表示，高效的 AI 推論對於需要在本機處理 AI 任務而不用連到雲端的裝置來說也很有幫助。一個很好的例子是：微軟的 Copilot Plus 電腦。微軟和 Qualcomm 與筆電製造商合作，包括 Dell、HP 和 Lenovo，首批搭載 Qualcomm 晶片的 Copilot Plus 筆電已在七月上架。Qualcomm 在智慧型手機和平板電腦市場也佔有一席之地，其 Snapdragon 晶片為 Samsung、OnePlus 和 Motorola 等品牌的裝置提供動力。

Qualcomm 在駕駛輔助和自動駕駛平台的 AI 領域也是重要的參與者。2024 年初，現代汽車的 Mobius 部門宣布要和 Qualcomm 合作，使用 Snapdragon Ride 平台（Nvidia Drive 平台的競爭對手）來開發先進的駕駛輔助系統。

超大規模雲端業者：量身打造的晶片展現實力

優點：垂直整合專注設計

缺點：超大規模雲端業者可能優先考慮自身需求和用途

超大規模雲端業者——那些大規模部署硬體的雲端運算巨頭——已經成為大型科技公司的同義詞。Amazon、Apple、Google、Meta 和微軟都想盡快部署 AI 硬體，不僅為了自己使用，也為了他們的雲端運算客戶。為了加快腳步，他們都開始自己設計晶片。

Google 比競爭對手更早投資 AI 處理器：這家搜尋引擎巨頭的張量處理單元（TPU）首次在 2015 年亮相，現在已成為其 AI 基礎設施的主要動力來源。第六代 TPU Trillium 於五月發表，是 Google AI Hypercomputer 的一部分，這是一項為需要處理 AI 任務的公司提供的雲端服務。

Prendki 表示，Google 的 TPU 讓公司在追求 AI 商機時占了上風。她說：「我很幸運不用太費心思考從哪裡取得晶片。」不過，有了 TPU 也不能完全解決供應吃緊的問題，因為 Google 的不同部門仍需共享資源。

而現在 Google 不再是唯一的參與者了。Amazon 有兩款自家晶片，Trainium 和 Inferentia，分別用於訓練和推論。微軟有 Maia，Meta 有 MTIA，而 Apple 據說也在開發用於處理其雲端基礎設施 AI 任務的矽晶。這些公司都不直接與Nvidia競爭，因為大規模雲端服務商不直接向客戶銷售硬體。但他們確實透過雲端服務出售對其硬體的使用權，例如Google的AI Hypercomputer、Amazon的AWS和Microsoft的Azure。在許多情況下，大規模雲端服務商提供的服務同時運行在自家硬體和Nvidia、AMD、Intel的硬體上；Microsoft被認為是Nvidia最大的客戶。

中國晶片：前途未卜

另一類競爭者的出現並非源於技術需求，而是地緣政治因素。美國對AI硬體出口實施限制，阻止晶片製造商向中國公司銷售最新、最強大的晶片。因應這種情況，中國公司正在設計自研AI晶片。

華為在這方面領先群雄。該公司設計作為Nvidia H100替代品的Ascend 910B AI加速器，目前正由中國政府部分持股的上海晶片代工廠商中芯國際生產。然而，據報導中芯國際的良率問題導致供應受限。華為還在銷售「一體式 AI 解決方案」，針對希望建立自己的AI基礎設施的中國公司。

為了繞過美國出口管制規定，中國產業可能轉向替代技術。例如，中國研究人員在光子晶片（photonic chips）方面取得進展，這種晶片使用光而不是電荷來進行計算。Prendki說：「光束的優點是你可以讓光束相互交錯。這減少了矽晶片上通常會有的限制，因為在矽晶片上你不能讓路徑交叉。你可以用更少的成本製造更複雜的電路。」光子晶片仍處於非常早期階段，但中國在這領域的投資可能加速其發展。

還有發展空間

很明顯，Nvidia的競爭對手不少。同樣明顯的是，在未來幾年內，沒有一家能挑戰——更不用說打敗——Nvidia。本文採訪的每個人都同意，Nvidia目前的主導地位是無與倫比的，但這並不意味著它將永遠壓制競爭對手。

Moorhead說：「聽著，市場需要選擇。我無法想像到2026年AMD不會有10%或20%的市場份額，Intel也是如此。通常市場喜歡有三家，而我們現在就有三個合理的競爭對手。」Kimball則表示，隨著大規模雲端服務商將更多AI服務轉移到自家硬體上，他們可能會挑戰Nvidia。

還有一些變數。Cerebras、SambaNova和Groq是一長串尋求以創新解決方案蠶食Nvidia市場份額的新創中的領導者。還有數十家其他公司，包括d-Matrix、Untether、Tenstorrent和Etched，都把希望放在為生成式AI優化的新晶片架構上。這些新創中很可能有許多會失敗，但也許下一個Nvidia會從倖存者中脫穎而出。

挑戰者來了！瞄準輝達的王座

強敵環伺？

AMD：另一家GPU製造商

Intel：軟體成功

Cerebras：更大更好

SambaNova：變形金剛中的變形金剛

Groq：以形制功

Qualcomm：效能至上

超大規模雲端業者：量身打造的晶片展現實力

中國晶片：前途未卜

還有發展空間

About The Author

Sean Liu | CEO

Leave a Comment Cancel Reply

強敵環伺？

AMD：另一家GPU製造商

Intel：軟體成功

Cerebras：更大更好

SambaNova：變形金剛中的變形金剛

Groq：以形制功

Qualcomm：效能至上

超大規模雲端業者：量身打造的晶片展現實力

中國晶片：前途未卜

還有發展空間

About The Author

Sean Liu | CEO

Related Posts

Leave a Comment Cancel Reply

Start typing and press enter to search