農曆年之前,AI 領域『御三家』最為人們所關注的題材在於各家擁有的三神器:Gemini Ultra、GPT-5 與 Llama-3。
但出乎所有人意料的是,單就在 2/15 這一天,御三家不約而同的都直接領域展開『無量空處』直接癱瘓了一大批新創。Google 推出了升級版的 Gemini 1.5 系列,號稱百萬 context window length 與超強 Recall 能力直接秒了眾多 RAG SaaS 跟 framework(這樣寫純戲劇效果),Meta 法蘭西重砲『楊sir』為我們帶來了世界模型 V-JEPA,OpenAI 則展示了 text-to-video 生成模型『Sora』。
以下就當作是我一份筆記去紀錄這一天發生的事情,並簡單的介紹這三個模型的特性和技術原理,作為後續多篇深入文章的序章。
Google Gemini Pro 1.5
- Google 宣布推出 Gemini Pro 1.5 版本,這是對原有 Gemini 系列(包括 Nano、Pro 和 Ultra 三個版本)的升級。
- Gemini 1.5 在多模態基礎上融合了混合專家模型技術,相較於傳統的單一大型 Transformer 模型,混合模型專家模型採用多個專家神經網絡,能夠根據用戶輸入智能的路由到最相關的專家系統,提升了推論的效率和質量。
- 混合專家架構已被證明具有優越性,無論是在商業應用(如 GPT-4)還是開源模型(如 Mistral)中。
- Gemini Pro 1.5 在推論性能上顯著的與 1.0 的 Ultra 版本性能相當,但因為是 Pro 版本,算力需求有顯著減少,使得能夠大幅擴展 context window length,這是此次升級的主要賣點。
- 超長的 context window length 上下文窗口的 Token 數能穩定達到 100萬的長度,極端情況下甚至可達 1,000 萬,為當前大語言模型中的最高水平。
- 超長上下文功能讓用戶能夠進一步擴展輸入內容長度,如上傳大檔案、資料集、數小時影片和幾乎一整天的聲音檔等。
- 此次 Gemini 的升級如果在推論速度、token 成本以及 Reall 等等關鍵指標上能夠以絕對的優勢呈現出來的話,這勢必會對 Claude 之類主打 long context window 的競品在市場定位造成了進一步的挑戰,並進而對以檢索增強生成(RAG)為核心賣點的新創公司與開發框架(ex. LangChain 與 Llamaindex 等等)造成重大打擊。
Meta V-JEPA
- 在同一天(2/15)宣布新技術的『AI 御三家』中,Meta 的 V-JEPA 相較於 Google 的 Gemini 1.5 和 OpenAI 的 Sora 而言,在社群媒體上幾乎沒人問及。
- V-JEPA(Video Joint Embedding Predictive Architecture)是 Meta 針對影像信號處理的最新技術,旨在通過被動觀察學習世界知識,與之前處理圖像信號的 I-JEPA 相似。
- Meta AI 扛霸子『Yann LeCun』一如往常的持續 diss 基於自迴歸的生成式模型,認為應該追求更高級的概念學習而非僅僅填補資訊缺口,V-JEPA 正是這一理念的實踐。
- V-JEPA 在設計為一種『非』生成型架構,不直接預測輸入的像素或文本值,而是通過編碼器生成抽象的語義表徵,側重於學習數據的深層語義和結構。
- Yann LeCun 的目標是讓 V-JEPA 能夠像人類一樣學習到世界知識,形成對周圍世界的內部模型。
- V-JEPA 目前似乎更多被用於分類和動作檢測等 downstream tasks,相較於其他兩家這次展現出的 muscle,可能之後的賣點還是在開源這件事(?),V-JEPA 的高級語義表徵如何妥善利用以及如何實現商業落地,仍然是一個開放的問題。
OpenAI Sora
- 不得不說 Sam 哥神威,OpenAI 憑藉 Sora 在整個社群網路上的擴散程度可說是一騎絕塵兼威震寰宇,展示了其深厚的商業洞察力和商業策略。
- Sora 的核心創新在於實現了影像生成時前後 frame 的連貫性,即使在最長只有一分鐘的視頻生成中,也可說是完全碾壓目前市場上所有競爭對手,有人在 Twitter 上分享了一段相同提示詞下影像生成在 Sora 與 Runway 中所展現出效果的對比,看完後真的只能為 OpenAI 的對手覺得惋惜。
- OpenAI 透過將訓練用的影像數據分解成包含時間和空間資訊的時空 patch(Space-Time Latent Patches)來實現這一點,這些 patches 類似於 LLM 中的 Token,既捕捉視覺內容也捕捉內容隨時間的變化。
- Sora 使用一種類似於 AI 繪圖的擴散模型來生成影像,透過給定的時空 patches 和文本提示逐步還原成去躁後的影像,這種方法成功地解決了之前 Yann LeCun 在預測下一 frame 方面的挑戰。
- 儘管 Sora 在技術上取得了突破,但其對 GPT-5 的整合以及在影視行業的潛在顛覆性仍存在未知數,主要原因包括 Sora 尚未足夠成熟、高昂的算力需求以及 OpenAI 對於 GPT-5 支持影像生成功能的謹慎考量,當開發者們真正拿到手上的時候極有可能是被下了許多封印咒的版本。
- OpenAI 的創辦人 Sam Altman 提到,儘管人們對影像生成的需求一直都沒有停過,但團隊仍在考慮是否在 GPT-5 中支持此功能,因為在成本、算力需求與合規、對齊上屆時是否都能達到一訂的標準目前仍屬未定之天。
- Sora 的成功更多體現在技術創新和為創作者提供新工具方面,而非立即顛覆現有的影視製作流程,預期在未來很長的一段時間內,Sora 的實際應用可能更適合作為創意發想和原型設計的工具,而不是直接用於商業生產。
- 但可以確定的是,隨著 Sora 的開放使用,勢必是短影音市場的一次大洗牌,這將進一步激發創意和多樣化的內容創作,但同時也可能帶來市場上的資訊過載。
- 關於 Sora 的技術細節可以閱讀這篇文章。
簡單的小結一下,在 2/15 這天,『AI 御三家』各自展現了自家的隱藏術式。基本上我認為 Google 的 Gemini 1.5 『長期』上勢必讓原本以 long-contex 為主打以及以 RAG 方法論作為主要賣點的新創公司造成嚴重衝擊,當然這是在這些新創公司都不往前邁進持續突破限界的前提下,而 OpenAI 的 Sora 則直接挑戰那些以影像生成技術為主打的新創企業(ex. Runway 與 Pika 等等)。至於 Meta 則是持續走其開源路線,推出了 V-JEPA,雖然 Yann LeCun 將其定位為世界模型,但我還沒看完論文我也還無法做出些什麼建設性的補充。與此同時,Sora 雖然效果威震華夏,但就現階段呈現出來的小果其實質上更多是一種像素流動的擬合器,並不能從根本上消除非現實現象。
私底下,我之前一直都跟朋友們講說,解決影像生成這件事一定會是 2024 年生成 AI 領域的主旋律,看到 Sora 的效果,我想說不定今年連同 3D 物件的生成都可以在很大程度上被 OpenAI 整個收拾掉,OpenAI 目前有一個名為 Shape-E 的專案(最後一次更新在三個月前),他的作用是 text-to-3D,並在 3D 場景中進行物理引擎模擬和行為預測,我找時間再來 review 一下該專案的相關論文,不知道在 Sora 之後 OpenAI 對 AI 在實體空間理解和推理上的發展方向將會如何?
Let’s wait and see
備註: