挑戰者來了!瞄準輝達的王座


強敵環伺?

在人工智慧的遊戲中,別忽視這些新興勢力

不誇張地說,輝達在人工智慧領域的主導地位難以超越。成立於1993年的輝達,最初在當時新興的個人電腦圖形處理器(GPU)領域嶄露頭角。但讓輝達一躍成為世界最有價值公司之一的,卻是它的人工智慧晶片,而非個人電腦圖形硬體。事實證明,輝達的GPU在人工智慧領域也表現卓越。因此,其股票價值比2020年初時高出15倍以上;營收從2019財年的約120億美元飆升至2024年的600億美元;而這家人工智慧巨頭的尖端晶片,如今已像沙漠中的水一樣稀少又珍貴。

Google DeepMind的人工智慧資料主管Jennifer Prendki表示,取得GPU「已經變成一個令人頭疼的問題,以至於研究人員每天都在思考這個問題。因為否則他們連做研究都沒辦法,即使他們擁有最好的模型。」相較於大多數人,Prendki對輝達的依賴較小,因為Google有自家研發的人工智慧基礎設施。但其他科技巨頭,如微軟和亞馬遜,都是輝達的大客戶,並且持續以最快的速度購買其GPU。根據新聞報導,到底誰能拿到這些晶片,為什麼能拿到,現已成為美國司法部反壟斷調查的主題。

輝達在人工智慧領域的主導地位,就像機器學習的爆炸性發展一樣,是最近才發生的事。但這其實是源自於該公司數十年來致力於將GPU建立為通用運算硬體,可用於繪圖以外的許多任務。這項努力不只包括了公司的GPU架構,該架構演變到包含了擅長加速人工智慧工作負載的「張量核心」,而且更重要的是,還包括其軟體平台CUDA,幫助開發人員充分利用硬體。

Moor Insights & Strategy的首席資料中心分析師Matt Kimball說:「他們想辦法讓每個從大學畢業的資訊科學專業學生都接受了培訓,知道如何寫CUDA程式。他們提供工具和培訓,並在研究上投入大量資金。」

於2006年發布的CUDA幫助開發人員利用輝達GPU的眾多核心。這被證明是非常重要的,尤其是在加速高度平行化的運算任務方面,包括現代生成式人工智慧。輝達在建立CUDA生態系統方面的成功,使其硬體成為人工智慧開發最容易上手的選擇。輝達的晶片可能很難買到,但比人工智慧硬體更難找到的是經驗豐富的人工智慧開發人員——而許多人都熟悉CUDA。 這使得Nvidia擁有深厚且廣泛的競爭優勢來保護其業務,但這並不意味著它沒有準備挑戰的競爭對手,而且這些競爭對手的策略各不相同。在老牌公司如Advanced Micro Devices (AMD)和Intel試圖利用自家的GPU與Nvidia競爭的同時,像Cerebras和SambaNova這樣的新創公司則開發了能大幅提升生成式AI訓練和推論效率的創新晶片架構。這些公司最有可能成為Nvidia的勁敵。

AMD:另一家GPU製造商

優點:AMD的GPU是具有說服力的Nvidia替代方案

缺點:軟體生態系統無法與Nvidia的CUDA抗衡

AMD在顯示晶片領域與Nvidia競爭已近二十年。這場戰鬥有時是懸殊的。在顯示效能方面,AMD的GPU很少在銷售量或市佔率上勝過Nvidia。儘管如此,AMD的硬體仍有其優勢。該公司廣泛的GPU產品組合涵蓋了從筆電內建顯示卡到擁有超過1500億電晶體的AI資料中心GPU。該公司也是高頻寬記憶體(HBM)的早期支持者和採用者,這種記憶體現在對世界上最先進的GPU來說是不可或缺的。

「如果你看看硬體…它的表現不輸Nvidia」,Kimball提到AMD的Instinct MI325X時說道,這是Nvidia H100的競爭對手。「AMD在設計這顆晶片時做得非常出色。」

預計在今年年底推出的MI325X擁有超過1500億個電晶體和288GB的高頻寬記憶體,不過實際效能還有待證實。MI325X的前代產品MI300X贏得了微軟的讚賞,微軟採用了包括MI300X在內的AMD硬體來處理一些ChatGPT 3.5和4的服務。Meta和Dell也採用了MI300X,而Meta在開發其最新的大型語言模型Llama 3.1時也使用了這些晶片。

AMD還有一個障礙需要跨越:軟體。AMD提供了一個開源平台ROCm來幫助開發人員為其GPU編程,但它不如CUDA受歡迎。AMD意識到了這個弱點,在2024年7月同意收購歐洲最大的私人AI實驗室Silo AI,該實驗室在使用ROCm和AMD硬體進行大規模AI訓練方面有經驗。AMD還計劃收購ZT Systems,這是一家在資料中心基礎設施方面有專長的公司,以幫助該公司服務那些希望大規模部署其硬體的客戶。開發一個能與CUDA抗衡的平台並非易事,但AMD確實在努力嘗試。

Intel:軟體成功

優點:Gaudi 3 AI加速器顯示出強勁性能

缺點:下一款重要AI晶片要到2025年底才會推出

Intel所面對的挑戰和AMD剛好相反。 儘管Intel缺乏與Nvidia的CUDA和AMD的ROCm完全匹配的產品,但它在2018年推出了一個開源統一程式開發平台OneAPI。不同於CUDA和ROCm,OneAPI涵蓋多種硬體類別,包括CPU、GPU和FPGA。因此,它可以幫助開發人員在任何Intel硬體上加速AI任務(以及許多其他任務)。Kimball說:「Intel有一個非常棒的軟體生態系統,可以輕鬆啟用。」

然而,至少與Nvidia和AMD相比,硬體是一個弱點。Intel的Gaudi AI加速器是Intel在2019年收購AI硬體新創公司Habana Labs的成果,已經取得了進展,最新的Gaudi 3提供了與Nvidia H100相當的效能。

不過,Intel下一代硬體的具體細節尚不明朗,這引起了一些擔憂。Moor Insights & Strategy創辦人Patrick Moorhead說:「Gaudi 3非常有能力。」但截至2024年7月,「還沒有Gaudi 4」,他說。

相反,Intel計劃轉向一個雄心勃勃的晶片,代號為Falcon Shores,採用基於晶粒的模組化架構,結合了Intel x86 CPU核心和Xe GPU核心;後者是Intel最近進軍顯示卡硬體的一部分。不過,Intel尚未透露Falcon Shores的架構和效能細節,而且預計要到2025年底才會推出。

Cerebras:更大更好

優點:晶圓級晶片提供強大的效能和每晶片記憶體容量

缺點:由於體積和成本,應用範圍較為小眾

毫無疑問,AMD和Intel是目前最有實力挑戰Nvidia的對手。他們有著設計成功晶片和建立相應程式開發平台的歷史。但在規模較小、較不成熟的參與者中,有一家公司脫穎而出:Cerebras。

這家專門為超級電腦開發AI的公司在2019年推出了Wafer Scale Engine,一個巨大的晶圓大小的矽晶片,裝有1.2兆個電晶體,引起了轟動效應。最新一代的Wafer Scale Engine 3更進一步,達到了4兆個電晶體。相比之下,Nvidia最大和最新的GPU B200「只有」2080億個電晶體。圍繞這個晶圓級怪獸建造的電腦Cerebras CS-3是Condor Galaxy 3的核心,後者將是一個由64台CS-3組成的8 exaflop的AI超級電腦。G42,一家總部位於阿布達比的集團,希望訓練下一代尖端大語言模型,將擁有這個系統。

Bernstein Research的資深分析師Stacy Rasgon說:「它比較小眾,不太通用。」「不是每個人都會買這些電腦。但他們有顧客,像是美國國防部,以及Condor Galaxy 3超級電腦。」

在多數情況下,Cerebras的WSC-3無法與Nvidia、AMD或Intel的硬體相比;它體積太大、成本太高,而且太過專業化。但它可能會給Cerebras在超級電腦領域帶來獨特的優勢,因為沒有其他公司設計與WSE同等級的晶片。

SambaNova:變形金剛中的變形金剛

優點:可配置架構幫助開發人員提升人工智慧模型效率

缺點:硬體仍需證明對大眾市場的重要性

SambaNova成立於2017年,是另一家以非傳統晶片架構處理人工智慧訓練的晶片設計公司。其旗艦產品SN40L擁有該公司稱為「可重新配置的資料流架構」,由記憶體和運算資源的磚塊組成。這些磚塊之間的連結可以即時改變,以促進大型神經網路的快速資料移動。

Prendki認為這種可客製化的晶片可能對訓練大型語言模型很有用,因為人工智慧開發人員可以為不同模型優化硬體。她說,沒有其他公司提供這種能力。

SambaNova與SN40L一起使用的軟體堆疊SambaFlow(桑巴流)也獲得了好評。Moorhead說:「在基礎設施層面,SambaNova在平台方面做得很好。」SambaFlow可以分析機器學習模型,並協助開發人員重新設定SN40L以加速模型的效能。SambaNova還有很多需要證明的,但其客戶包括軟銀和Analog Devices。

Groq:以形制功

優點:出色的人工智慧推理效能

缺點:應用目前僅限於推理

另一家在人工智慧硬體方面有獨特見解的公司是Groq。Groq的方法專注於緊密配對記憶體和運算資源,以加速大型語言模型回應提示的速度。

Moorhead說:「他們的架構非常以記憶體為基礎。記憶體與處理器緊密耦合。你需要更多節點,但每個詞元(token)的價格和效能表現驚人。」「詞元」是模型處理的基本資料單位;在大型語言模型中,通常是一個單詞或部分單詞。他說,Groq的效能更令人印象深刻,因為其晶片(稱為Language Processing Unit Inference Engine)使用的是GlobalFoundries的14奈米技術,比製造Nvidia H100的台積電技術落後數個世代。

7月,Groq發布了其晶片推理速度的展示,運行Meta的Llama 3 80億參數大型語言模型時,每秒可超過1,250個詞元。這甚至超越了SambaNova的展示,後者每秒可超過1,000個詞元。

Qualcomm:效能至上

優點:具有人工智慧功能的廣泛晶片系列

缺點:缺乏大型、尖端等級的人工智慧訓練晶片

Qualcomm以其Snapdragon系統單晶片而聞名,該晶片為Samsung Galaxy S24 Ultra和OnePlus 12等熱門Android手機提供動力,是一個可以與AMD、Intel和Nvidia平起平坐的巨頭。 但與這些同行不同,該公司的 AI 策略更專注於 AI 推論和特定任務的能源效率。Anton Lokhmotov 是 AI 基準測試組織 MLCommons 的創始成員,也是專門從事 AI 優化的 Krai 公司的執行長。他表示,Qualcomm 在一項重要的基準測試中,大幅提升了 Qualcomm Cloud AI 100 伺服器的推論效能。Lokhmotov 指出,在 ResNet-50(一種影像分類基準測試)中,伺服器的效能從每瓦 180 個樣本增加到 240 個樣本,而「基本上使用同樣的伺服器硬體」。

Lokhmotov 表示,高效的 AI 推論對於需要在本機處理 AI 任務而不用連到雲端的裝置來說也很有幫助。一個很好的例子是:微軟的 Copilot Plus 電腦。微軟和 Qualcomm 與筆電製造商合作,包括 Dell、HP 和 Lenovo,首批搭載 Qualcomm 晶片的 Copilot Plus 筆電已在七月上架。Qualcomm 在智慧型手機和平板電腦市場也佔有一席之地,其 Snapdragon 晶片為 Samsung、OnePlus 和 Motorola 等品牌的裝置提供動力。

Qualcomm 在駕駛輔助和自動駕駛平台的 AI 領域也是重要的參與者。2024 年初,現代汽車的 Mobius 部門宣布要和 Qualcomm 合作,使用 Snapdragon Ride 平台(Nvidia Drive 平台的競爭對手)來開發先進的駕駛輔助系統。

超大規模雲端業者:量身打造的晶片展現實力

優點:垂直整合專注設計

缺點:超大規模雲端業者可能優先考慮自身需求和用途

超大規模雲端業者——那些大規模部署硬體的雲端運算巨頭——已經成為大型科技公司的同義詞。Amazon、Apple、Google、Meta 和微軟都想盡快部署 AI 硬體,不僅為了自己使用,也為了他們的雲端運算客戶。為了加快腳步,他們都開始自己設計晶片。

Google 比競爭對手更早投資 AI 處理器:這家搜尋引擎巨頭的張量處理單元(TPU)首次在 2015 年亮相,現在已成為其 AI 基礎設施的主要動力來源。第六代 TPU Trillium 於五月發表,是 Google AI Hypercomputer 的一部分,這是一項為需要處理 AI 任務的公司提供的雲端服務。

Prendki 表示,Google 的 TPU 讓公司在追求 AI 商機時占了上風。她說:「我很幸運不用太費心思考從哪裡取得晶片。」不過,有了 TPU 也不能完全解決供應吃緊的問題,因為 Google 的不同部門仍需共享資源。

而現在 Google 不再是唯一的參與者了。Amazon 有兩款自家晶片,Trainium 和 Inferentia,分別用於訓練和推論。微軟有 Maia,Meta 有 MTIA,而 Apple 據說也在開發用於處理其雲端基礎設施 AI 任務的矽晶。 這些公司都不直接與Nvidia競爭,因為大規模雲端服務商不直接向客戶銷售硬體。但他們確實透過雲端服務出售對其硬體的使用權,例如Google的AI Hypercomputer、Amazon的AWS和Microsoft的Azure。在許多情況下,大規模雲端服務商提供的服務同時運行在自家硬體和Nvidia、AMD、Intel的硬體上;Microsoft被認為是Nvidia最大的客戶。

中國晶片:前途未卜

另一類競爭者的出現並非源於技術需求,而是地緣政治因素。美國對AI硬體出口實施限制,阻止晶片製造商向中國公司銷售最新、最強大的晶片。因應這種情況,中國公司正在設計自研AI晶片。

華為在這方面領先群雄。該公司設計作為Nvidia H100替代品的Ascend 910B AI加速器,目前正由中國政府部分持股的上海晶片代工廠商中芯國際生產。然而,據報導中芯國際的良率問題導致供應受限。華為還在銷售「一體式 AI 解決方案」,針對希望建立自己的AI基礎設施的中國公司。

為了繞過美國出口管制規定,中國產業可能轉向替代技術。例如,中國研究人員在光子晶片(photonic chips)方面取得進展,這種晶片使用光而不是電荷來進行計算。Prendki說:「光束的優點是你可以讓光束相互交錯。這減少了矽晶片上通常會有的限制,因為在矽晶片上你不能讓路徑交叉。你可以用更少的成本製造更複雜的電路。」光子晶片仍處於非常早期階段,但中國在這領域的投資可能加速其發展。

還有發展空間

很明顯,Nvidia的競爭對手不少。同樣明顯的是,在未來幾年內,沒有一家能挑戰——更不用說打敗——Nvidia。本文採訪的每個人都同意,Nvidia目前的主導地位是無與倫比的,但這並不意味著它將永遠壓制競爭對手。

Moorhead說:「聽著,市場需要選擇。我無法想像到2026年AMD不會有10%或20%的市場份額,Intel也是如此。通常市場喜歡有三家,而我們現在就有三個合理的競爭對手。」Kimball則表示,隨著大規模雲端服務商將更多AI服務轉移到自家硬體上,他們可能會挑戰Nvidia。

還有一些變數。Cerebras、SambaNova和Groq是一長串尋求以創新解決方案蠶食Nvidia市場份額的新創中的領導者。還有數十家其他公司,包括d-Matrix、Untether、Tenstorrent和Etched,都把希望放在為生成式AI優化的新晶片架構上。這些新創中很可能有許多會失敗,但也許下一個Nvidia會從倖存者中脫穎而出。

Leave a Comment

Your email address will not be published. Required fields are marked *