從快手到慢工:軟體吃了世界,而 AI正在消化這個世界


主動式推理時代開始

生成式 AI 引爆的兩年後,研究主軸正在將這個領域從「快速思考」,快速的預先訓練回應推進到「慢速思考」,意即在推論時進行推理,而這項演變正在開啟了一系列新的主動式應用程式。

生成式AI市場的基礎層正在穩定,形成了一個由關鍵的大型參與者和聯盟組成的均衡狀態,包括微軟/OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind。只有具備經濟引擎和能夠取得大量資金的大型參與者才能繼續參與。雖然競爭遠未結束(而且以博弈論的方式不斷升級),但市場結構本身正在穩固,很明顯我們將會有越來越便宜且豐富的下一個字詞的預測。

隨著大型語言模型(LLM)市場結構的穩定,下一個前沿領域正在浮現。關注點正在轉向推理層的開發和擴展,其中「系統2」思考佔據主導地位。受到像 AlphaGo 這樣的模型的啟發,這一層聚焦在賦予 AI 系統在推論時進行深入的推理、解決問題和認知操作的能力,超越了快速模式匹配。而新的認知架構和使用者界面正在塑造這些推理能力如何傳遞給使用者並與之互動。

這一切對AI市場的創業者意味著什麼?對現有軟體公司又意味著什麼?作為投資者,我們在生成式AI技術堆疊中看到最有前景的回報層在哪裡?

以下我們將探討基礎 LLM 層的整合如何為擴展這些高階推理和主動能力的競賽鋪平了道路,並討論具有新型認知架構和使用者界面的新一代「殺手級應用程式」。

Strawberry Fields Forever

2024年最重要的模型更新當屬於 OpenAI 的 o1,之前被稱為 Q*,也被稱為 Strawberry。這不僅是 OpenAI 重新確立其在模型品質排名上的領先地位,也是對現狀架構的顯著改進。更具體地說,這是第一個具有真正通用推理能力的模型範例,他們是通過推論時的運算來實現的。

這是什麼意思?預訓練模型是在大量資料上進行下一個 token 的預測。它們依賴「訓練階段的運算」。規模的一個附帶效果是基本推理,但這種推理非常有限。如果你能教模型更直接地推理呢?這基本上就是 Strawberry 想要達成的目標。當我們說「推理階段的運算」時,我們的意思是要求模型在給你回應之前先停下來思考,這需要在執行階段進行更多運算(因此稱為「推理階段的運算」)。「停下來思考」的部分就是推理。

AlphaGo x LLMs

那麼,當模型停下來思考時,它在做什麼呢?

讓我們先快速回顧一下 2016 年 3 月在首爾發生的事。這是深度學習史上的重要里程碑:AlphaGo 對戰傳奇圍棋大師李世乭。這不只是一場普通的 AI 對戰人類的比賽—這是世界看到 AI 不僅僅是模仿模式的時刻。它真的在思考。

是什麼讓 AlphaGo 與之前的遊戲 AI 系統(如 Deep Blue)不同?像 LLMs 一樣,AlphaGo 首先經過預訓練,從包含大約 3,000 萬個棋步的資料庫和更多自我對弈中模仿人類專家。但 AlphaGo 並不是從預訓練模型中給出本能反應,而是花時間停下來思考。在執行階段,模型會對廣泛的潛在未來場景進行搜尋或模擬,對這些場景進行評分,然後回應預期價值最高的情境(或答案)。給 AlphaGo 的時間越多,它表現得就越好。如果沒有推理階段的運算,模型無法戰勝最頂尖的人類棋手。但隨著推理時間的增加,AlphaGo 變得越來越強—直到超越最頂尖的人類。

讓我們回到 LLM 的世界。在這裡複製 AlphaGo 的方法的難點在於構建 value function(價值函數),也就是對回應進行評分的函數。如果你在下圍棋,這相對直接:你可以模擬整個遊戲直到結束,看看誰贏了,然後計算下一步棋的預期價值。如果是寫程式碼,也相對直接:你可以測試程式碼,看看是否有效。但如何評分一篇文章的初稿呢?或是旅行行程?或是長文件中關鍵詞彙的摘要?這就是為什麼用現有方法進行推理很困難。這也解釋了為什麼 Strawberry 在程式設計、數學、科學等邏輯性較強的領域表現出色,但在寫作等更開放和非結構化的領域則相對遜色。

雖然 Strawberry 的實際實作方式是個被 OpenAI 嚴守的秘密,但其關鍵理念涉及圍繞模型生成的思考鏈進行強化學習。檢視模型的思考鏈顯示,正在發生一些根本且令人興奮的事情,這實際上類似於人類的思考和推理方式喔。例如,o1 展現出當遇到困難時能夠回溯的能力,這是擴展推理時間的一種延伸特性。它還展現出以人類的方式思考問題的能力(像是,視覺化球體上的點來解決幾何問題),以及用新方法思考問題的能力(例如,以人類不會採用的方式解決程式設計競賽中的問題)。

而且,加速推理時間運算的新想法並不缺乏(比如說,計算獎勵函數的新方法、縮小生成器/驗證器差距的新方法),研究團隊正在努力改善模型的推理能力。換句話說,深度強化學習又變得有趣了,它正在啟用一個全新的推理層。

系統 1 vs 系統 2 思考模式

從預先訓練的本能反應(「系統 1」)到更深入、深思熟慮的推理(「系統 2」)的這一飛躍是 AI 的下一個發展前沿。模型僅僅知道事物是不夠的,它們需要停下來,評估並即時推理決策。

把預訓練想像成系統 1 層。無論模型是在圍棋中預訓練了數百萬步(AlphaGo),還是在網路規模的文本中預訓練了千兆位元組級資料(LLM,大型語言模型),它的工作都是模仿模式,無論是人類的遊戲玩法還是語言。但模仿,儘管強大,卻不是真正的推理。它無法正確地思考複雜的新情況,特別是那些超出樣本的情況。

這就是系統 2 思考發揮作用的地方,也是最新一波 AI 研究的重點。當模型「停下來思考」時,它不只是生成學習到的模式或根據過去的資料產生預測。它正在生成一系列可能性,考慮潛在結果,並根據推理做出決定。

對於許多任務來說,系統 1 就足夠了。多花時間思考不丹的首都是什麼並沒有幫助,你要麼知道,要麼不知道。這裡快速的基於模式的回憶效果完美。

但當我們看到更複雜的問題時,像是數學或生物學的突破,快速、本能的反應就不夠用了。這些進展需要深入思考、創造性解決問題,最重要的是,時間。AI 也是如此。要解決最具挑戰性、最有意義的問題,AI 將需要超越快速的樣本內回應,花時間產生那種體現人類進步的深思熟慮推理。

新的規模化法則:推論競賽開跑了

o1 論文中最重要的見解是出現了一個新的規模化法則。

預先訓練大語言模型遵循一個眾所周知的規模化法則:在預先訓練模型上花費越多的計算和資料,模型表現就越好。

o1 論文為規模化計算開創了一個全新的方向:給予模型越多的推論時間(或「測試時間」)計算,它的推論就越好。

如果模型能思考幾個小時、幾天,甚至幾十年會怎麼樣?我們會解決黎曼猜想(數學難題)嗎?我們會回答艾西莫夫的終極問題嗎?

艾西莫夫的「最後問題」是指他 1956 年發表的著名科幻短篇小說《最後問題》(The Last Question)中提出的一個問題,而這個故事探討了一個深奧的宇宙學和哲學問題。在這個故事中,人類(後來是 AI)反覆問一台超級電腦同一個問題:『熵增可以逆轉嗎?』或者說『宇宙的熱寂可以避免嗎?』,而這個問題關乎宇宙的命運。根據熱力學第二定律,宇宙的熵(無序度)會不斷增加,最終導致所謂的「熱寂」狀態,屆時宇宙中的能量都會均勻分布,不再有任何有用功可做。這個問題在故事中被反覆問了很多次,跨越了人類文明的興衰,甚至超越了宇宙本身的生命週期。每次,電腦都回答說「資料不足,無法回答」。這個「最後問題」象徵了人類對生命意義和宇宙終極命運的探索。它挑戰了我們對科技、知識,甚至神性的理解。艾西莫夫通過這個問題,引導讀者思考科技發展、人類命運和宇宙本質等深刻話題。

這種轉變將使我們從大規模預先訓練叢集的世界轉向推論雲端運算環境:一個能夠根據任務複雜度動態擴展計算能力的環境。

o1 AIME 的表現與計算資源呈現明顯的正相關關係。無論在訓練還是測試階段,增加計算時間都能顯著提升模型的準確度。這一發現強調了在機器學習任務中,計算能力的重要性。特別值得注意的是,測試階段的效果更為顯著。相較於訓練階段從 30% 增至 70% 的穩定上升,測試階段的準確度呈現更為陡峭的增長曲線,從 20% 快速攀升至接近 80%。這一現象呈現出在實際應用中,增加計算資源可能帶來更大的效益。準確度的對數級增長特徵,暗示了效能提升可能存在一定的極限。儘管如此,在最佳情況下能達到近 80% 的測試準確度,仍然展現了 o1 AIME 模型的高效能潛力。這些觀察結果為 AI 系統的資源分配策略提供了重要參考,特別是在權衡訓練與測試階段資源投入時。

一個統治所有的模型?

當 OpenAI、Anthropic、Google 和 Meta 擴展他們的推理層並開發越來越強大的推理機器時,會發生什麼?我們會有一個統治所有的模型嗎?

在生成型 AI 市場初期,有一種假設認為單一模型公司會變得如此強大和全面,以至於會吞併所有其他應用。到目前為止,這個預測在兩方面都出錯了。

首先,在模型層面上有大量競爭,不斷有人在頂尖(SOTA)能力上你追我趕。有可能有人會找出持續自我改進與廣泛領域自我對弈的方法並實現起飛,但目前我們還沒有看到這方面的證據。反而,模型層面是一場你死我活的競爭,自上次開發者日以來,GPT-4 token 的價格下降了 98%。

其次,除了 ChatGPT 這個明顯的例外,模型大多未能成功進入應用層成為突破性產品。現實世界是複雜的。頂尖研究人員沒興趣去了解每個可能的垂直領域中,每個可能功能的繁瑣端對端工作流程。對他們來說,停留在 API 層面既有吸引力又符合經濟理性,讓開發者生態系統去處理現實世界的複雜性。這對應用層來說是個好消息。

複雜的現實世界:客製化思考架構

作為一個科學家,你規劃和執行行動以達成目標的方式,與你作為軟體工程師的工作方式有很大的不同。此外,即使是在不同公司擔任軟體工程師,工作方式也會有所不同。隨著研究實驗室不斷推進橫向通用推理的界限,我們仍然需要特定應用或領域的推理來提供有用的AI代理。複雜的現實世界需要大量特定領域和應用的推理,這些推理無法有效地編碼到一般模型中。

這就引出了認知架構,或者說你的系統如何思考:接受使用者輸入並執行動作或生成回應的程式碼和模型互動的過程。

以 Factory 為例,他們的每個「droid」產品都有一個自定義的認知架構,模仿人類思考解決特定任務的方式,像是審查拉取請求或撰寫並執行從一個後端更新到另一個後端的遷移計畫。Factory droid 會分解所有的依賴關係,提出相關的程式碼變更,新增單元測試,並邀請人類審查。然後在獲得批准後,在開發環境中對所有檔案執行變更,如果所有測試都通過就合併程式碼。就像人類可能做的那樣,以一系列獨立任務而不是一個通用的黑盒答案來完成。

AI認知系統的層狀架構

1. 預先訓練層:這是系統的基礎,它可能包含了在初始訓練階段從大規模資料中學習到的基礎知識和模式。

2. 推論層:位於中間,這一層建立在預先訓練層之上。它可能處理更複雜的認知任務,如邏輯推理和問題解決。

3. 應用專屬的認知架構:最上層,代表系統的專門化組件。這一層針對特定應用或任務量身定制,利用下層的能力執行目標功能。

這種分層設計顯示了一種模組化方法,每一層都建立在下層的基礎上並增強其能力。這種架構允許結合廣泛的基礎知識(預先訓練)、一般推理能力和專門的應用特定功能。

App界發生了什麼事?

想像你想要在人工智慧領域創業。你要鎖定堆疊的哪一層?你想在基礎設施上競爭嗎?祝你好運贏過 NVIDIA 和超大規模雲端服務商。你想在模型上競爭嗎?祝你好運贏過 OpenAI 和 Meta。你想在應用程式上競爭嗎?祝你好運贏過企業 IT 部門和全球系統整合商。喔,等等。這聽起來其實很可行!

基礎模型很神奇,但也很混亂。主流企業無法處理黑箱、幻象和不順暢的工作流程。消費者面對空白的提示欄不知道該問什麼。這些都是應用層的機會。

兩年前,許多應用層公司被嘲笑為「只是 GPT-3 上的封裝」。今天,這些封裝卻成為建立持久價值的少數可靠方法之一。最初的「封裝」已經演變成「認知架構」。

應用層人工智慧公司遠遠不止於基礎模型上的使用者介面。它們擁有複雜的認知架構,通常包括多個基礎模型,上層有某種路由機制,用於 RAG(檢索增強生成)的向量和/或圖形資料庫,確保合規的安全機制,以及模仿人類思考工作流程的應用邏輯。

軟體即人力

雲端轉型是軟體即服務(SaaS)。軟體公司變成了雲端服務提供者。這是一個 3,500 億美元的機會。得益於智能的推理能力,人工智慧轉型是『軟體即人力』。軟體公司將勞動力轉化為軟體。這意味著可達市場不是軟體市場,而是兆元規模的服務市場。

銷售工作是什麼意思?Sierra 是個好例子。B2C 公司將 Sierra 放在他們的網站上與客戶交談。要完成的工作是解決客戶問題。Sierra 按解決方案獲得報酬。不存在「單一使用者授權」這種東西。你有工作要完成。Sierra 來做。他們相應地得到報酬。

這是許多人工智慧公司的終極目標。Sierra 受益於 Graceful failure mode(升級到人工客服)。並非所有公司都這麼幸運。一個新興的模式是先部署為輔助模式(Human in the loop),並利用這些經驗贏得機會部署為自動模式(No human in the loop)。GitHub Copilot 就是一個很好的例子。

軟體和人工智慧市場的快速成長和未開發潛力

2010年,整個軟體市場的規模為 3,500 億美元,其中雲端運算軟體僅佔 60 億美元的小部分。快轉到2024年,我們看到了一個顯著的轉變。整體軟體市場幾乎翻倍至 6,500 億美元,但真正的亮點是雲端軟體,它從 60 億美元急遽成長至 4,000 億美元,現在構成了市場的主要部分。

然而,更讓人驚訝的是 2024 年更廣闊的視角。它呈現出一個規模超過 10 兆美元的軟體和服務市場,遠遠超過先前的數字。在這個龐大的市場中,AI 軟體目前只佔 30 億美元,考慮到 AI 的熱門程度,這是一個令人意外的小比例。這種對比顯示了 AI 在更廣泛的軟體和服務生態系統中有著巨大的未開發潛力。

思考 AI 在這個市場中的未來走向。考慮到過去十年雲端軟體的爆炸性成長和目前軟體和服務市場的龐大規模,顯而易見:AI 可能正準備迎來指數級成長,潛在地在未來幾年重塑整個軟體產業的面貌。

一個新的 AI 智能應用程式類別

隨著生成式 AI 萌芽中的推理能力,一個新的 AI 智能應用程式類別正開始出現。

這些應用層公司呈現什麼樣的形式?有趣的是,這些公司看起來與他們的雲端科技前輩公司不同:

  • 雲端公司瞄準軟體利潤池。AI 公司瞄準服務利潤池。
  • 雲端公司販售軟體(每個使用者席位收費)。AI 公司販售工作成果(按結果收費)。
  • 雲端公司喜歡由下而上發展,採用低門檻的推廣模式。AI 公司越來越趨向由上而下發展,採用高度互動、高度信賴的服務模式。

我們正看到這些 AI 智能應用程式在知識經濟的各個領域中出現新的類別。以下是一些例子:

  • Harvey:AI 律師助理
  • Glean:AI 工作效率助手
  • Factory:AI 軟體工程師
  • Abridge:AI 醫療抄寫員
  • XBOW:AI 滲透測試員
  • Sierra:AI 客戶服務代理

藉由降低這些服務的邊際成本(每多生產一單位產品所增加的成本)與不斷下降的 AI 運算成本相一致,這些 AI 智能應用程式正在擴展和創造新的市場。以 XBOW 為例。XBOW 正在開發一個 AI「滲透測試員」。「滲透測試」或稱滲透檢測,是對電腦系統進行模擬網路攻擊,讓公司能評估自身的安全系統。在生成式 AI 出現之前,公司只在有限的情況下(例如為了符合法規要求)才會聘請滲透測試員,因為人工滲透測試費用昂貴:這是一項由資安專家執行的手動任務。然而,XBOW 現在展示了基於最新推理大語言模型的自動化滲透測試,其表現可媲美最頂尖的人類滲透測試員。這擴展了滲透測試市場,並為各種規模的公司開啟了持續滲透測試的可能性。

這對 SaaS 世界意味著什麼?

AI 的轉變會摧毀你們現有的雲端公司嗎?

一開始我們預設的回答是「不會」。新創公司和現有公司之間的傳統競爭,就像是新創公司建立分銷網絡和現有公司開發產品之間的賽跑。擁有創新產品的年輕公司能否在擁有客戶的既有公司開發出吸引人的產品之前爭取到大量客戶?考慮到 AI 的魔力大多來自基礎模型,我們的預設假設是不會,既有公司會表現得很好,因為這些基礎模型對他們和新創公司同樣容易取得,而且他們已經擁有資料和分銷的優勢。新創公司的主要機會不是取代現有軟體公司,而是專注在可自動化的工作領域。

話雖如此,我們現在不那麼確定了。奠基在先前關於認知架構的討論。將模型的原始能力轉化為令人信服、可靠的端到端商業解決方案需要大量的工程工作。如果我們只是大大低估了「AI 原生」的意義呢?

二十年前,現場部署軟體公司嘲笑 SaaS 的概念。「有什麼大不了的?我們也可以運行自己的伺服器,通過網際網路提供這些服務!」沒錯,從概念上來說很簡單。但隨之而來的是整個業務的徹底重塑。EPD 從瀑布式開發和 PRD 轉向敏捷開發和 AB 測試。GTM 從自上而下的企業銷售和高級晚餐轉向自下而上的產品主導成長(PLG)和產品分析。商業模式從高 ASP 和維護收入流轉向高 NDR 和依使用量計費。很少有現場部署公司成功完成這個轉變。

如果 AI 是一個類似的轉變呢?AI 的機會會不會既是銷售工作又是取代軟體?透過 Day.ai,我們看到了未來的一瞥。Day 是一個 AI 原生的客戶關係管理(CRM)系統。系統整合商花費數十億美元來為您客製化 Salesforce。

而 Day 只需要存取您的電子郵件和行事曆,再回答一頁的問卷,就能自動生成一個完全符合您企業需求的 CRM。它目前可能還沒有那麼多花俏功能,但這種無需人工輸入就能保持最新狀態的自動生成 CRM 的魔力,已經讓人們開始轉向使用它。

投資領域

身為投資者,我們把心力放在哪裡?資金被投入到哪裡?以下是我們的快速看法。

基礎設施

這是超大規模業者(hyperscalers)的領域。它由博弈理論行為驅動,而非微觀經濟學。這對風險投資家來說是個很糟的領域。

模型

這是超大規模業者(hyperscalers)和金融投資者的領域。超大規模業者正在拿資產負債表換取損益表,投資的資金最終會以計算收入的形式回到他們的雲端業務。金融投資者則因「被科學震撼」的偏見而有所偏差。這些模型超級酷,這些團隊令人難以置信地令人印象深刻。管它的微觀經濟學!

開發者工具和基礎設施軟體

對策略投資者來說比較沒興趣,對風險投資家來說比較有搞頭。在雲端轉型期間,這一層面產生了約 15 家年收入超過 10 億美元的公司,我們懷疑在 AI 領域也可能如此。

App

對風險投資來說最有趣的層面。在雲端轉型期間,應用層面產生了約 20 家年收入超過 10 億美元的公司,在行動裝置轉型期間又產生了約 20 家,我們懷疑在這裡也會如此。

結語

在生成式 AI 的下一幕,我們預期推理能力研發的影響將延伸至應用層。這些影響快速且深遠。迄今為止,大多數認知架構都包含了巧妙的「解除限制」技術;現在這些能力正深深地融入模型本身,我們預期 AI 代理應用會變得更加複雜和強大,而且速度很快。

回到研究實驗室,推理和推論時的運算將繼續是可預見未來的主旋律。現在我們有了新的 Scaling Law,下一場競賽開始了。但對於任何特定領域來說,蒐集真實世界的資料並編碼特定領域和應用的認知架構仍然很困難。這再次是最後一哩路應用程式開發商可能在解決現實世界中各種混亂問題時佔上風的地方。

展望未來,多代理系統,如 Factory 的機器人,可能開始大量增加,作為模擬推理和社會學習過程的方式。一旦我們可以完成工作,我們就可以擁有完成更多事情的工作小組。

我們都熱切期待的是生成式 AI 的第 37 手(Move 37),就像 AlphaGo 與李世乭的第二局對弈那樣 – 一個通用 AI 系統以某種超人的方式讓我們驚訝,給人獨立思考的感覺。這並不意味著 AI「覺醒」了(AlphaGo 並沒有),而是我們模擬了感知、推理和行動的過程,AI 可以以真正新穎和有用的方式探索這些過程。這實際上可能就是 AGI,如果是這樣,它不會是單一的突破性事件,而只是技術的下一個階段。

全文使用 Agentic Translation 翻譯自紅杉資本最新文章 Generative AI’s Act o1

Leave a Comment

Your email address will not be published. Required fields are marked *