智慧成長的極限：AI 長鏈思考遇到的瓶頸

Table of Contents

寫在前面

▋從 AlphaZero 到 o1：強化學習的成就與困境

2017 年，當 DeepMind 的 AlphaZero 在棋盤上表現出超越人類的創意時，整個 AI 圈都被震撼到了。這個在 64 格上自己跟自己下了幾百萬盤棋的系統，讓人看到了機器思考的終極形態：純粹的強化學習在有規則的系統裡，展現出近乎完美的表現。七年後，OpenAI 推出了 o1 推理引擎，想要把這種有系統的思考能力放到語言模型的開放領域，卻意外發現了現在 AI 發展的根本問題。

在圍棋和西洋棋這塊，強化學習確實表現出很厲害的特性：明確的輸贏規則、馬上就能拿到的回饋、封閉的環境，這些條件一起創造出完美的訓練環境。不過當我們想把一樣的技術放到開放性的語言任務時，問題就出現了。就像原文作者在高中時想用強化學習來訓練寫哲學論文的系統時遇到的挫折一樣，在沒有明確評分標準的領域，要設計獎勵機制本身就是一件不可能的事。

這個問題主要是因為獎勵太少的環境所造成的。強化學習系統需要很多正面或負面的回饋來形成行為模式，但在現實世界的複雜決策中『不管是公司策略、人際關係，或是哲學思考』我們通常要等到很久之後才能拿到模糊的成效回饋。這就像要學生只靠期末考的分數來找出整學期該怎麼讀書一樣，效果可想而知不會很好。

▋o1 的技術突破與認知極限

OpenAI 的 o1 模型確實有很棒的工程設計：把語言模型預先學習的知識和強化學習的系統推理結合在一起，在數學證明、寫程式等「可以驗證答案」的領域有了突破。這種技術方向基本上就是把開放式的語言問題變成像遊戲一樣的環境，就像把寫文章變成寫程式，透過執行結果是否正確來產生大量的獎勵訊號。

這個方法在某些特定領域的效果真的很讚。根據開源社群對 DeepSeek r1 模型的逆向工程分析，當面對 LeetCode 演算法題時，經過強化學習訓練後的模型能表現出和人類工程師一樣的系統性思考：先了解問題要求，再試不同的解法，最後測試邊界條件。這種有系統的推理能力，確實比傳統語言模型的機率性文字產生方式還要厲害。

不過當測試領域轉向開放性創作時，情況就變得很糟。我們用寫俳句來當例子：當要求模型以「科技奇點」為題，創作符合 5-7-5 音節結構的短詩時，經過強化學習訓練的 r1 模型表現得很奇怪。它很機械式地拆解音節數、列出關鍵字，卻寫出「機器心智甦醒，人與代碼共舞纏綿，未來迴響浩瀚」這種只有形式但沒有詩意的句子。相較之下，沒有經過強化學習特別訓練的 Claude 3.5 模型反而能寫出「電路甦醒閃爍，網絡綻放已知之外，思緒自織掙脫」這種有隱喻深度的作品。

這種差異點出了一個重要問題：強化學習訓練帶來的推理能力有很強的領域限制。當任務目標可以轉換成明確的驗證規則時（像是程式執行結果、數學證明驗證），系統性思考確實能提升表現；但在需要模糊判斷和創意發揮的領域，強化學習模型反而被訓練過程中的結構限制給困住了，表現甚至可能比基礎模型還差。

▋模型規模化的問題與認知長鏈的困境

更讓人擔心的是，整個 AI 產業看起來正在面臨規模化發展的雙重問題。從參數量來看，從 GPT-4 之後，主流模型的規模擴張明顯停下來了。OpenAI 首席科學家 Ilya Sutskever 之前預測的「模型參數量指數成長」趨勢，在 2024 年出現明顯斷層。這種停滯不是因為技術瓶頸，而是實用性和成本考量的現實妥協，當 300B 參數模型的表現跟調整過的 50B 模型差不多時，商業邏輯自然會選擇後者。

同時，推理過程的長鏈延伸也遇到了根本限制。理論上，只要給足夠的運算時間，AI 系統應該可以透過延長思考鏈來提升表現。但實際數據顯示，就算是像 o1 這種特別為長鏈推理設計的模型，它有效的思考長度還是停在幾千個 token 的等級。這跟人類思考的時空跨度形成很大的對比，愛因斯坦發展相對論花了十年時間，中間包含了無數次失敗嘗試和認知重構，這種跨時間尺度的思考模式，在現在的強化學習框架下還是很難做到。

這個困境其實暴露出現有 AI 架構的認知上限：系統沒辦法在開放性問題中自己產生有意義的中期獎勵訊號。當人類作者一直修改某個段落時，他同時在很多個層面上做價值判斷（情感共鳴、邏輯連貫、節奏美感等），這種多層次、非結構化的評估能力，正是現在強化學習系統最大的弱點。

▋開放性推理的突破方向

面對這些挑戰，AI 研究社群正在探索很多突破的方向。混合架構系統（像是把符號推理引擎和神經網路結合）重新受到關注，想要在保持靈活性的同時加入規則限制。Meta 開源的 Cicero 系統在政治談判任務中表現得很讚，就是透過把博弈論框架和語言模型結合，在開放性互動中維持策略的連貫性。

另一方面，自我監督學習的進展也帶來新的可能性。Anthropic 最近發表的「概念熵最小化」訓練法，讓模型在沒有明確獎勵訊號的情況下，透過保持認知一致性來提升推理品質。這種方法在哲學論證任務中表現特別好，模型能自己找出論證漏洞並進行多次修正，某種程度上模擬了人類學者的思考模式。

不過這些技術都還在早期階段，它們最主要的挑戰在於如何建立開放性的價值評估系統。現在的 AI 系統在有規則的環境中已經表現出超越人類的能力，但在需要模糊認知的領域，我們還是缺乏有效的性能評估框架。也許未來的突破會來自認知科學的跨領域啟發，就像神經科學家 Karl Friston 提出的自由能原理，把生物體的認知過程建模為持續的預測誤差最小化過程，這種理論框架可能會為開放性推理系統提供新的設計方向。

▋總結：在技術現實中找到平衡點

站在 2024 年的技術前線，我們需要用更務實的角度來看 AI 的發展。o1 模型的出現確實擴展了機器推理的範圍，但它的成就也清楚地反映出現有方法的限制。當產業界把太多資源投入特定形式的推理優化時，我們可能正在錯過更有突破性的創新機會。

真正的認知革命，可能不會來自對現有架構的漸進改良，而是需要等待像「注意力機制」那樣的典範轉移。在那一天到來之前，保持技術探索的多元性會很重要——就像生物演化從來不會把所有資源都投入單一物種，AI 的未來也需要在神經符號系統、類腦架構、量子計算等不同路線之間保持開放可能。

畢竟，當 AlphaZero 在棋盤上下出那步驚人的棄子時，沒有人預見它會帶來七年後的語言推理革命。在 AI 這片充滿未知的領域，今天遇到的技術困境，可能正是明天突破的伏筆。