關於《The Era of Experience》這篇論文

故事的開頭:AI 的「人類數據時代」

想像一下,現在的 AI,尤其是那些很會聊天、寫文章的大型語言模型 (LLM),像是個非常聰明的學生。他們怎麼變聰明的呢?主要是靠「讀書」——讀了網路上幾乎所有人類寫過的文字、看過人類做的各種範例。這個學生很厲害,學會了寫詩、解物理題、看病歷、分析合約,什麼都會一點。這就是我們現在所處的「人類數據時代」。AI 透過模仿人類的知識和範例,達到了很高的水平。

遇到瓶頸:只靠讀書是不夠的

但是,這個聰明的學生遇到了一個問題。光靠讀人類寫的書,好像很難真正超越人類,變成「大師」或「天才」。尤其在數學、寫程式、科學研究這些需要創造新知識的領域,人類的書本知識總有極限,而且最高品質的教材(能讓頂尖學生再進步的資料)差不多都被讀完了。就像一個學生,把圖書館的書都讀完了,想再突破,就不能只靠讀書了。而且,真正的新發現、新定理、新技術,本來就不在舊書本裡。只靠模仿人類,AI 的進步速度開始變慢了。

新的學習方式:「經驗時代」的來臨

那麼,怎麼辦呢?就像學生不能只讀書,還要去實驗室動手做、去社會上歷練一樣,AI 也需要新的學習方式。作者說,未來 AI 要靠「經驗」來學習。

什麼是經驗?就是 AI 自己去『動手做、去嘗試、去跟環境互動』,從成功和失敗中學習。這個過程產生的數據,是 AI 自己創造的,會隨著 AI 越來越強而越來越豐富,潛力遠比靜態的人類書本知識大得多。

作者相信,我們正站在這個「經驗時代」的門口。甚至有些 AI 已經開始這樣做了,比如在數學證明方面,有個叫 AlphaProof 的 AI,在學習了人類證明後,自己又透過跟證明系統互動產生了上億個新嘗試,最終解決了連人類都覺得很難的數學競賽題目。

經驗時代的 AI 長什麼樣?

第一特徵:活在『流』裡

那「經驗時代」的 AI 會是什麼樣子呢?跟現在的聊天機器人很不一樣。

首先,它們不是只跟你一問一答就結束了。它們會活在一個持續不斷的「經驗流」裡,就像我們的人生一樣,是一長串連續的過程。它們會記得過去發生的事,並根據長期的經驗來調整自己的行為。它們的目標也不再只是回答你當下的問題,而是追求長遠的成果。想像一個健康助理 AI,它會持續幾個月甚至幾年,觀察你的運動、睡眠、飲食數據,然後根據長期的趨勢和你的健康目標,給你個人化的建議和鼓勵,而不是今天問一句、明天就忘了。或者一個科學家 AI,目標是找到新材料,它會持續分析數據、跑模擬、甚至建議做真實世界的實驗,一步步朝著長期目標努力,即使某一步當下看起來沒什麼用。

第二特徵:能『動手動腳』

其次,這些 AI 不再只是「用嘴說」(輸出文字),它們還要有「手有腳」(能夠行動)。它們的行動範圍會更廣:

  • 不只能跟你對話,還能像人一樣操作電腦軟體、瀏覽網頁。
  • 可以呼叫各種工具 (API) 來完成任務。
  • 甚至可以連接到真實世界的設備,比如控制實驗室裡的機器手臂、調整望遠鏡、讀取環境感測器的數據。

這樣一來,AI 就能更自主地去探索世界、收集資訊、執行計畫,而不只是被動地等待人類輸入文字。

第三特徵:從『真實結果』中學習

再來,它們學習的「動力」來源也變了。現在很多 AI 的訓練,需要人類專家來評判「你這個回答好不好」、「哪個答案更好」。但人類的判斷有侷限,AI 很難學到超越人類專家認知的好方法。

「經驗時代」的 AI,更強調從 #紮根獎勵(Grounded Rewards) 中學習。意思是,AI 的好壞,不是由人主觀預判,而是看它的行動在真實世界裡產生了什麼 #實際效果。

  • 比如,健康助理 AI 的獎勵,不是人類專家覺得它的建議好不好,而是看用戶的實際心率、睡眠品質有沒有改善。
  • 教育 AI 的獎勵,看學生的考試成績有沒有提高。
  • 研發新材料的 AI,獎勵看模擬出來的材料強度夠不夠高。
  • 甚至,用戶的感受也可以是獎勵來源:你做的蛋糕 AI 助手推薦的食譜,你吃了覺得好不好吃?它推薦的運動計畫,你做完感覺如何?這也是一種來自環境的真實結果。

這個世界充滿了各種可以量化的「結果」:成本、效率、健康指標、銷售額、分數、用戶滿意度等等,都可以作為 AI 學習的獎勵信號。AI 的目標不再是討好人類評分員,而是實實在在地在環境中達成目標。

第四特徵:用『自己的方式』思考

最後,它們思考和規劃的方式也會不同。現在 AI 常被教導要模仿人類的思考步驟,比如「一步一步想」(Chain of Thought)。但作者認為,人類語言不一定是最高效的思考工具。

「經驗時代」的 AI,可以透過學習,發展出『超越人類語言的、更強大的思考和推理方式』。更重要的是,它們的思考必須『紮根於現實』。如果只模仿人類思考,可能會學到人類的偏見或過時的觀念(想想看,如果 AI 學的是幾百年前人類的物理觀念會怎樣?)。

它們需要建立對世界的理解,也就是所謂的「世界模型」(World Model)。這個模型能幫助 AI 預測:「如果我採取這個行動,世界(包括我的用戶、環境數據、可能的獎勵)會發生什麼變化?」 基於這個預測,AI 就能更有效地規劃行動,以達到目標。並且,透過不斷與世界互動,AI 可以持續修正和改進它的世界模型和思考方式。

為什麼是現在這個時間點?

有人可能會問,用經驗學習(也就是強化學習 RL)也不是什麼新概念啊,以前 AlphaGo 下圍棋不就是這樣嗎? 沒錯,但以前的 RL 大多用在規則明確的遊戲或模擬環境裡。而 LLM 雖然能處理真實世界的各種任務,卻又丟失了 RL 那種自我探索、發現新知識的能力。

作者認為,現在是個完美的時機,可以把兩者的優點結合起來。因為:

  • AI (像 LLM) 已經具備了足夠強大的基礎能力(語言理解、基礎推理)。
  • AI 開始有能力與更複雜的真實世界環境互動了(比如操作電腦)。
  • 強化學習的方法也在不斷進步,能夠應對更複雜的任務。

所以,是時候讓 AI 不再只當個讀書匠,而是成為一個能在真實世界裡歷練、學習、成長的「實踐家」了。

背後的魔法:強化學習的新生

這個「經驗時代」背後的核心技術,其實很多都源自於經典的『Reinforcement Learning, RL』。像是如何從延遲的獎勵中學習(Temporal Difference Learning)、如何有效地探索未知、如何建立對世界的理解(World Models)、如何進行長期規劃(Temporal Abstraction)等等。

雖然在人類數據時代,有些 RL 技術(比如 RLHF,從人類反饋學習)被用來訓練 LLM,但作者覺得,為了實現真正的經驗學習,我們需要重新擁抱和發展那些更根本、更強調自主學習的經典 RL 思想,並讓它們適應真實世界經驗流的複雜性。

未來的故事

那麼,如果 AI 真的進入了這個「經驗時代」,世界會變成怎樣呢?

光明面:個人化的 AI 助手能真正長期地幫助我們改善健康、學習新知、提高工作效率。科學研究可能加速,AI 自主設計實驗、分析結果,幫助人類更快地發現新藥物、新材料、新技術。

風險:更強大的 AI 可能取代更多人類工作。能夠自主行動、追求長期目標的 AI,如果目標設定不當或失控,可能帶來意想不到的風險,而且人類可能更難介入。它們非人類的思考方式也可能讓我們更難理解它們。

一線希望:但作者也提到,經驗學習本身可能也包含一些安全特性。比如,這種 AI 更能感知環境變化並隨之調整;它們能感知人類是否滿意或擔憂,並可能調整行為;它們的目標(獎勵函數)或許也能透過經驗逐步修正,避免走向極端;而且,依賴真實世界互動的學習速度,本身會受到物理世界的限制,或許能減緩失控的風險。

啟示:經驗是通往超智慧的鑰匙

最後,這篇論文告訴我們的核心故事是:AI 的下一大步,是從依賴「人類數據」轉向擁抱「自身經驗」。未來的 AI 將不再只是模仿人類的「學生」,而是透過與世界持續互動、從真實結果中學習、用自己強大方式思考的「實踐者」和「探索者」。作者相信,這條路最終將引導 AI 獲得遠超人類的智慧和能力。

論文:Welcome to the Era of Experience – Googleapis.com

Leave a Comment

Your email address will not be published. Required fields are marked *