來自 Jim Fan 對 Sora 的第一印象
目前我有一個習慣,每當有一個全新超炫砲模型出現在眼前時,我第一件事通常都是先跑去 Jim Fan 的 Twitter 上看看他是否已經有針對該模型做了 review,不出所料,針對 Sora 他已經在第一時間就寫下關於這個模型的有趣 insights。
由於 Jim Fan 已經講得實在太好了,我完全補充不上些什麼,以下我就先全文翻譯他對 Sora 的第一印象想法,然後在文章後續的篇幅中筆記 Sora 的一些技術細節。
以下是 Jim Fan 在 Twitter 上針對 Sora 的推文全文:
如果你認為 OpenAI Sora 就像 DALL-E 那樣是個創意玩具的話,那你可能要重新思考了。Sora 其實是一個『資料驅動的物理引擎』,它模擬了許多真實或是奇幻的世界。這個模擬器透過一些去噪聲和梯度數學,學習了複雜的渲染、『直觀』的物理、Long-horizon reasoning 以及 Semantic grounding。
如果 Sora 使用了大量的 UE5 產生的合成數據來進行訓練,我一點也不會感到驚訝。這是必須的!
接下來讓我們來分析下面的影片。提示:「一杯咖啡裡,兩艘海盜船進行戰鬥的超現實主義特寫視頻。」
- 模擬器實例化了兩艘裝飾不同的精緻 3D 海盜船。Sora 必須在其潛在空間中隱式解決文本到 3D 的問題。
- 3D 物件在航行時能夠持續動畫化,並避免彼此的路徑。
- 咖啡的流體動力學,甚至是圍繞船隻形成的泡沫。流體模擬是計算機圖形學的一個子領域,傳統上需要非常複雜的算法和方程式。
- 幾乎達到了光線追蹤渲染的照片真實主義。
- 模擬器考慮到杯子的小尺寸與海洋相比,應用了傾斜移位攝影技術,給予了一種「微小」的感覺。
- 該場景的語義在現實世界中不存在,但引擎仍然實施了我們期望的正確物理規則。
接下來:增加更多的模態和條件設定,然後我們將擁有一個全資料驅動的虛擬引擎,將取代所有手工製作的圖形管線。
在他推文中所提到的「資料驅動的物理引擎」是什麼呢?根據 Jim Fan 的說明,Sora 是一個端到端的 Diffusion Transformer Model,它可以直接將文字或圖片輸入轉化成影片像素輸出。通過對大量影片數據的梯度下降學習(gradient descent),Sora 在神經網絡的參數中隱性的學習到了一個物理引擎該有的運作方式。
換句話說,Sora 是一個可學習的模擬器或者說是「世界模型」。當然,它在運作時不會明確啟用 UE5 在背後做些什麼,但 OpenAI 在訓練過程中極有可能是將 UE5 生成的(文本 – 視頻)成對資料作為合成數據添加到訓練集中。
Sora 的創新之處在於它不依賴於傳統的物理引擎或是預先編寫的規則來模擬物理互動和環境變化。相反,Sora 透過分析和學習大量的視頻數據,使得模型能夠理解和重現從簡單到複雜的物理現象和互動,這一過程完全是資料驅動和學習得來的。
這種方法的一大優勢是能夠實現高度靈活和創造性的視覺輸出,因為模型學習的是對物理世界的深層理解,而不是僅僅遵循硬編碼的規則。這讓 Sora 在處理像「一杯咖啡中的海盜船戰鬥」這樣的創意提示時,能夠生成既符合物理邏輯又具有高度創造性的輸出。
此外,將 UE5 等高級合成工具生成的數據納入訓練,能夠進一步豐富模型的學習內容和視覺表現力,這種結合創新技術與深度學習的方法可能會為未來的視覺內容創作和模擬技術開啟新的篇章。隨著技術的進步,我們期待看到更多如 Sora 這樣能夠理解並模擬複雜世界的AI系統出現,接下來它將會為無數個領域帶來深且遠的衝擊。
針對人們質疑 Sora 並不理解真實世界物理這件事
Sora is the GPT-3 moment.
Don’t fixate on the imperfections of GPT-3. Think about extrapolations to GPT-4 in the near future.
對於許多直言不諱的反對意見:「Sora 沒有學習物理,它只是在 2D 中操作像素而已。」
Jim Fan 不同意這種簡化的觀點,這就像說「GPT-4 沒有學習如何編輯好程式碼的能力,它只是在抽樣與預測下一個文字」一樣,或是說 Transformer 做的事情就是操作一串整數(Token Ids)亦或是神經網絡做的事情就是操作浮點數。
Jim Fan:這不是正確的論點。
隨著 prompt text 轉影片(text2video)訓練大規模擴展,Sora 的軟物理模擬(Soft physics simulation)是一個 LLM 的頓悟現象(Emergent property)。
GPT-4 必須在類神經網路的權重與參數中以某種方式學習到 Python 的語法、語義和資料結構,以便生成可執行的 Python 程式碼。GPT-4 並不是外顯(Explicitly)方式的儲存了整套 Python 的語法樹。
非常相似地,Sora 必須學習一些隱性的(Implicit)的 text-to-3D、3D 變換、光追渲染(Ray-traced rendering)和物理規則(Physical rules)的形式,以盡可能準確地模擬影片像素的生成,它必須學習遊戲引擎的理論與概念才能達成這樣的目標。
如果我們不考慮互動,UE5 生成影片像素的過程是非常複雜的。Sora 所呈現的也是一個基於 End-to-end Transformer 生成影片像素的過程,它們在抽象層次上是非常類似的。
不同之處在於 UE5 是手工製作和精確的,但 Sora 純粹是通過數據學習和「直覺」獲得的。
Sora 會取代遊戲引擎開發者嗎?絕對不會。現階段的真實世界的物理狀態理解是脆弱的,遠非完美。它仍然會大量幻想與我們的物理世界中常識不符的事物,它對物體在各種不同物理世界場景下互動該有的形式在理解上還不夠好。
但我們應該把 Sora 的推出類比於四年前的 GPT-3 的時刻。回到 2020 年,GPT-3 是一個相當糟糕的模型,需要重度提示工程和評估,但它在『LLM 頓悟能力』這件事情上展現出令人驚訝的表現。
對比 Sora 與 GPT-3 到 GPT-4 的發展提醒我們,技術的進步往往是一個迭代的過程,每一代技術都在為下一代的突破打下基礎。就像GPT-3 在自然語言處理領域開啟了新的可能性一樣,Sora 及其後續版本可能會在視覺模擬和物理世界認識方面開創新的道路。而這些進步,雖然可能目前還不完美,但正是它們提供了探索未知和拓展我們能力邊界的機會。
不要過分關注 Sora 的不完美,我們應該充滿想像的去期待 Sora-2 將對這個世界帶來的衝擊。
Sora 是如何煉成的?
在 Sora 之前,許多先前關於影片生成模型的研究如『遞歸類神經網路(Recurrent networks)』、『生成對抗式網絡(Generative Adversarial Networks)』、『Autoregressive Transformers』和『Diffusion Models』等等,這些工作都聚焦於狹義類型的視覺數據或是較短的影像生成抑或是是固定大小的影片生成。但 Sora 不一樣,它是一個視覺數據的通用模型,它能生成涵蓋不同持續時間、長寬比和解析度的視頻和圖像,現階段可生成最高長達一分鐘的高清晰影片。
在訓練的方法上,OpenAI 從過去實踐 LLM 的學習中汲取了靈感,這些模型通過在整體網際網路規模的數據上訓練獲得了理解人類語言的通用能力,而 LLM 成功的部分原因在於使用了 Token 這一個對語料的表示方式,這些 token 巧妙地統一了文本的多種形式,不論是程式碼、數學以及各種自然語言。
在煉成 Sora 的過程中,OpenAI 一直在嘗試如何讓視覺數據的生成模型去繼承 LLM 泛化能力的好處,與 LLM 擁有文本 token 不同,Sora 採用的是名為 『visual patches』的數據形式去作為視覺數據模型一種有效的表示方式,visual patches 是一種高度可擴展且有效的表示形式,適用於在多種類型的影片和圖像上訓練生成模型。
OpenAI 首先將影片壓縮到一個低維的 latent space 來將影片轉化為 patches,隨後將該表示分解為 spacetime patches。
「latent space」在整個過程中扮演著一個非常關鍵的角色,它是一種將影片數據從其原始高維度形式轉換到一個更簡化、低維度表示的過程。這個轉換過程有助於捕捉和保留影片數據中最重要的特徵和信息,同時去除冗餘和不重要的數據,從而使數據處理變得更加高效。
在這個 latent space 中,影片不再以其原始的像素形式存在,而是被表示為一系列的數值,這些數值捕捉了影片內容中的關鍵視覺和動態特徵。這樣,當 OpenAI 進一步將這個低維度表示分解為 spacetime patches 時,每個 patch 都能夠代表影片中的一部分動態場景或視覺元素,但是以一種更加抽象和高效的方式。
因此,latent space 在整個訓練過程中可以被視為橋梁的角色,它使得從原始影片到 spacetime patches 的轉換變得可能,這對於後續的生成模型訓練非常關鍵。通過這種方式,Sora 能夠更有效地學習和生成視頻內容,因為它專注於影片的關鍵特徵,而不是被大量的冗餘信息所干擾。
至於 spacetime patches 指的是將壓縮後的影像數據(在 latent space 中的表示形式)進一步分解成包含時間和空間信息的小塊。這些 patches 不僅捕捉了影片中某一時刻的視覺信息,還包含了隨時間變化的動態信息,使得模型能夠理解和生成具有時間連續性的視覺敘事。
「latent space」和「spacetime patches」之間的關係是密切且互補的,latent space 作為一個低維度的數據表示形式,為影像數據提供了一種更簡潔且含義豐富的抽象表示,這使得數據的後續處理(例如分解成 spacetime patches)變得更加高效和有意義。
當影像資料被壓縮到 latent space 時,它轉變成了一種更易於處理和學習的形式,這種形式捕捉了影像的關鍵特徵而忽略了不必要的細節。隨後,這個 latent space 中的表示被分解成 spacetime patches,每個 patch 都代表了影像中的一小部分場景和其隨時間的變化,這為模型提供了一種理解和生成視頻動態的有效方式。
將影片經過上述的處理之後,Sora 模型能夠利用這些 spacetime patches 來學習影像數據中的動態變化和視覺模式,並在生成新影像時重現這些模式。因此,spacetime patches 作為 latent space 的具體應用,使得 Sora 不僅能夠生成靜態圖像,還能夠創建具有時間深度和空間豐富性的動態影片。
什麼是 Diffusion Transformer(DiT)
根據 DiT 作者 Saining Xie 自己的解釋:
DiT = [VAE encoder + ViT + DDPM + VAE decoder]
以下則是對他推文的整理:
Saining Xie:這是我對 Sora 技術報告的看法,其中包含了許多推測,可能完全不準確。首先,非常感謝 OpenAI 團隊分享有益的見解和設計決策;Sora實在是太驚人了而且勢必將徹底改變整個影片生成社群與產業的現狀。
Saining Xie:從 OpenAI Sora 的技術報告中我們得以一窺其概略的架構,首先,Sora 是基於我們的 DiT 模型建立的(發表於ICCV 2023);簡而言之,就是一個以 Transformer 作為骨幹的 Diffusion model。
DiT = [VAE encoder + ViT + DDPM + VAE decoder]
根據報告,似乎沒有太多附加的裝飾。 “影片壓縮網絡”:看起來就像是一個 VAE,但訓練於原始影片數據上。Tokenization 在獲得良好的時間一致性方面可能扮演重要角色。順帶一提,VAE 是一種 ConvNet,所以從技術上講 DiT 是一種混合模型。
Saining Xie:當 Bill 和我在進行 DiT 專案時,我們沒有過多專注在探索出什麼極為新穎的方法論,而是優先考慮了兩個方面:簡潔性和可擴展性。
Saining Xie:這些優先事項提供的不僅僅是概念上的優勢。 簡潔性意味著靈活性,人們經常忽視的是,標準 ViT 讓你的模型在處理輸入數據時變得更加靈活。例如,在遮罩自編碼器(MAE)中,ViT 幫助我們僅處理可見的 patches 並忽略被遮罩的那些。同樣地,Sora『可以通過在適當大小的網格中排列隨機初始化的 patches 來控制生成影片的大小』
Saining Xie:UNet 不直接提供這種靈活性。推測上,Sora也可能使用 Google 的 Patch n’ Pack (NaViT),使 DiT 適應變化的解析度/持續時間/長寬比。可擴展性是 DiT 論文的核心主題。
Saining Xie:首先,優化的 DiT 在每 Flop 的即時時間方面運行得比 UNet 快得多。更重要的是,Sora 證明了 DiT 的擴展法則不僅適用於圖像,現在也適用於影片;Sora 複製了在 DiT 中觀察到的視覺擴展行為。推測上,在Sora報告中,第一部影片的質量相當差,我懷疑它是使用基礎模型大小。
Saining Xie:很粗略地去計算 DiT XL/2 是 B/2 模型的 5X GFLOPs,所以最終的 16X 計算模型可能是 3X DiT-XL 模型大小,這意味著 Sora 可能有約3B參數;如果這是真的,這並非一個不合理的模型大小。這可能表明,訓練 Sora 模型可能不需要像人們預期的那麼多 GPU;我預期未來會有非常快速的迭代。
Saining Xie:從『湧現模擬能力』這部分得出的關鍵收穫是,在 Sora 之前,不清楚長形式的一致性是否能夠自發出現,或者是否需要複雜的主題驅動生成管道甚至是物理模擬器。OpenAI 已經向世人展示了,雖然不完美,但這些行為可以通過端到端訓練實現。然而,還有兩個關鍵點沒有被討論。 首先是訓練數據,技術報告中完全沒有討論訓練來源和構建方式,這可能隱含數據很可能是 Sora 成功的最關鍵因素。雖然已經有很多關於來自遊戲引擎的數據的猜測,同時我也預期會包括電影、紀錄片、電影長鏡頭等的資料包含在訓練資料及內。
Saining Xie:訓練數據的質量真的很重要,非常好奇 Sora 從哪裡獲得這些數據(肯定不是YouTube,對吧?)。
Saining Xie:關於 Auto-regressive 長影片生成這一部分,Sora 能夠生成非常長的影片是一個重大突破。製作 2 秒影片和 1 分鐘影片之間的差異是巨大的。在 Sor a中,這可能是通過聯合 frame 預測實現的,它允許自回歸採樣,但一個主要挑戰是如何解決錯誤累積並通過時間維持質量/一致性。一個非常長(且雙向)的上下文用於條件設定?或者僅僅放大可以簡化問題?這些技術細節可能非常重要,希望未來能夠揭開神秘面紗。
上面這一段我幾乎是原文全翻譯只是額外去除了簡體中文字而已,而以下段落開始則是我去查原始論文額外做的一些筆記:
什麼是 VAE encoder?
是 VAE decoder 就組成結構中的一個部分,能夠學習輸入數據的『高維分布』並在一個低維潛在空間中表示這些數據。VAE encoder 的作用是將高維的輸入數據(例如圖片或影像中一張張的 frame)映射到這個低維潛在空間中,生成一個緊湊的數據表示,而其目的是要原始數據的複雜性和變異性壓縮到一個更小、機器更易於管理的資料表示形式中,同時盡量保留原始數據的關鍵特性和結構資訊。
為何需要緊湊的數據表示?
- 降低維度:原始數據,尤其是圖像和影片,往往存在於一個高維空間中,這使得直接處理這些數據非常困難。緊湊的數據表示有助於將這些數據簡化成低維特徵,從而降低後續處理的複雜度。
- 特徵提取:通過學習緊湊的表示,VAE能夠識別和編碼輸入數據中最重要的特徵和模式,這些特徵對於理解數據的本質屬性非常關鍵。
高維空間?
透過閱讀 Sora 的技術報告我們可以理解到用來訓練模型的「原始數據,尤其是圖片和影像,往往存在於一個高維空間中」,這裡的「高維空間」指的是數據的每一個維度代表了一個特徵或數據點的一個屬性。對於圖片和影像這樣的視覺數據來說,高維度是由於每個像素點都可以看作是數據的一個維度,而一張圖像或一段影像包含了大量的像素點。
圖片的高維空間
以一張簡單的灰階圖片為例,如果圖像的解析度是 100×100 像素,那麼這張圖像就可以被表示為一個 10,000 維的空間中的一點,每一維對應圖片中的一個像素點的亮度值。灰階圖像中的每一個像素都可以用一個數值來表示,這個數值通常代表該像素點的亮度或灰度等級,沒特殊處理的話,這個數值的範圍是 0 到 255,其中 0 代表純黑,255 代表純白,而之間的數值則代表不同的灰度等級。
實務上將這張 100×100 像素的灰階圖像轉換成一個 10,000 維的向量,就是將圖像中的每一個像素點按照一定的順序排列,形成一個長度為 10,000 的數據向量。這個過程可以通過迭代圖片中的每一行(或每一列)像素,並將它們的灰度值依序放入向量中來完成。
例如,我們可以從圖片的左上角開始,先迭代完第一行的所有像素,接著是第二行,依此類推,直到最後一行。每迭代到一個像素,就將其灰度值添加到數據向量中。
對於彩色圖片,情況將更為複雜,因為每個像素點包含了 RGB 三個通道(紅、綠、藍),所以解析度相同的彩色圖像的維度是灰度圖像的三倍。
數據向量的意義
延續以單張 100×100 的灰階圖片為例,在這個 10,000 維的向量中,每一個維度代表了圖片中一個特定位置的像素亮度。這個向量全面地描述了圖片的視覺內容,包括形狀、邊緣、紋理等信息,只是以一種數據化的形式呈現。這種表示方法使得圖片可以被數學和統計工具處理,進而讓機器更方便的進行計算,最後讓算法學習到識別圖像中的模式和特徵的能力。
影片的高維空間
而影片可以被看作是一系列連續圖片(frame)的集合,因此其待處理的維度絕對遠高於單張圖片。例如,一段 10 秒長的視頻,如果 frame rate 是每秒 30 frames,並且每 frame 是 100×100 像素的彩色圖像,那麼這段影片就可以表示為一個 3,000,000 維(100x100x3x300)的空間中的一點,更長的影片當然就意味著更恐怖的維度數量需要被處理。
高維空間的挑戰
- 數據處理:高維數據的處理和分析需要大量的算力,這對資料儲存和處理能力都是一大挑戰。
- 維度災難:隨著維度的增加,需要探索的空間迅速增大,這使得模型訓練變得更加困難,這種現象被稱為「維度災難」。
- 特徵提取:在高維空間中,識別出哪些維度(即哪些像素點或像素特徵)是對於理解圖像或影像內容最重要的,是一個非常複雜的問題。
因此,將圖像和影像這類高維數據轉換成一種更簡潔、低維的表示形式,不僅能夠幫助我們更有效地處理和分析數據,還能夠為學習算法提供更加直觀的數據理解基礎。
Vision Transformer(ViT)
ViT 是一種專門為處理視覺資料而設計的 Transformer 架構,它將圖像分成多個小塊(patches),然後將這些小塊視為序列資料來處理。這個架構最初是為了解決影像辨識等視覺任務而設計,但後來在許多其他視覺相關的應用中也展現出了其效能。
在原始論文中,作者提出的 Diffusion Transformers(DiTs)是奠基於 Vision Transformer 架構發展出來的,特別是它們操作於圖像的空間表達形式(即圖像小塊),以此來訓練擴散模型。DiT 維持了 ViT 的許多最佳實務,例如,它們都處理序列化的圖像小塊,並且強調了 Transformer 架構在保持其規模特性方面的重要性,可能也正因為引入了 Transformer 作為骨幹,這進而讓 Sora 模型在實務上能夠呈現出如同 GPT 系列模型般的『湧現屬性』
DDPM(Denoising Diffusion Probabilistic Models)
DDPM 顧名思義它是一個用於去噪聲擴散機率模型,這是一種生成模型,通過模擬數據從無結構噪聲到真實數據分布的逆過程來生成數據。在這個過程中,模型學習如何逐步從加噪的數據中去除噪聲,最終恢復出乾淨的數據樣本。
DDPM 模型的核心思想是定義一個由簡單分布(例如高斯噪聲 Gaussian noise)逐步變化到目標數據分布的過程,這一過程稱為前向過程(forward process)。然後,模型訓練的目標是學習這一前向過程的逆過程,即如何從噪聲中逐步恢復出真實數據樣本。這一逆過程是通過最小化真實數據與模型生成數據之間的某種距離(如平方差)來實現的。
此模型近年來在圖像生成領域取得了顯著的進展,其生成的圖像質量在許多情況下已經超過了以前的 #生成對抗網絡(GANs)。DDPM 模型的優勢之一是能夠生成非常高質量的圖像,並且相比GANs,它的訓練過程更加穩定,不容易出現模式崩潰等問題。
DDPM 模型的改進和變體包括改進的採樣技術,例如無分類器引導(classifier-free guidance),以及將低解析度基礎擴散模型與上採樣器並行訓練的級聯 DDPM 管道(the cascaded DDPM pipeline)。這些改進都聚焦在進一步提高模型的生成質量和效率
VAE decoder
VAE decoder在 Diffusion Transformers(DiTs)的最後階段扮演了關鍵角色。具體來說,論文描述了在各種實驗中使用現成的預訓練 Variational AutoEncoders(VAEs)。這些 VAE 模型,即 ft-MSE 和 ft-EMA,是原始 LDM “f8” 模型的微調版本,其中只有 decoder的權重被微調。這個微調過程對於調整 VAE 以更好地適應擴散模型的特定需求至關重要,從而實現更準確、高質量的圖像生成。
研究通過一系列『剝離實驗』,展示了這些微調過的 VAE decoders 的使用,比較了原始 decoder 與 ft-MSE 和 ft-EMA decoders 的性能。為了評估這些 decoders 對模型性能的影響,監控了如 FID (Frechet Inception Distance)、sFID、Inception Score、Precision 和 Recall 等指標。論文中呈現的結果顯示,不同的預訓練 VAE decoder 權重在 ImageNet 256×256 數據集上可以產生相當的結果,表明了為特定任務微調 decoder 權重的有效性。
所謂的剝離實驗(Ablation Studies)是一種研究方法,通過系統性地移除或修改模型的某些部分來研究這些部分對模型整體性能的影響。在 『Scalable Diffusion Models with Transformers』這篇論文中,剝離實驗用於評估不同的 VAE decoder 對 Diffusion Transformers(DiTs)模型性能的影響。這種剝離實驗方法允許研究者細緻地了解各個模型組件對整體模型性能的貢獻,從而在保持模型其他部分不變的情況下,確定哪些改進對提高模型的生成質量最為關鍵。
Video compression network
OpenAI 訓練了一個能夠降低視覺數據維度的網絡,這個網路接收原始影片作為輸入,輸出一種在時間和空間上都被壓縮的潛在表示(latent representation),Sora 在這個壓縮的潛在空間(compressed latent space)上進行訓練,隨後在此空間內生成影片,OpenAI 還訓練了一個對應的解碼器模型,用來將生成的 #潛在表示 映射回像素空間。
Spacetime latent patches
給定一個經過 Video compression network 後的輸入影片,OpenAI 開始從中提取出一系列的 Spacetime latent patches,這些 patches 將作為 Transformer 的 roken 使用。這個方法論也適用於圖像,因為圖像只是具有單一 frame 的影片。OpenAI 基於 patch 的表示使 Sora 能夠在不同解析度、持續時間和長寬比的影片和圖像上進行訓練。在模型進行推論時,OpenAI 可以通過在一個大小合適的網格中排列隨機初始化的 patches 來控制生成視頻的大小。
Sora 的『頓悟現象』
如同前面已經提到的,Sora 是一種擴散模型,給定輸入的含噪聲的 patches(以及像 prompt text 這樣的條件信息),它被訓練來預測原始的「乾淨」patches。重要的是,Sora 是一種擴散變壓器。變壓器在多個領域展現了顯著的擴展性能,包括語言模型、計算機視覺和圖像生成。在這項工作中,OpenAI 發現 Diffusion Transformer 同樣可以作為有效的影像模型進行擴展。在 Sora 的技術文件中所給出的範例裡 OpenAI 展示了訓練進度中,使用固定 seed 和輸入的影像樣本比較,可以明顯的看到隨著訓練計算量的增加,樣本質量的提高也更為顯著。
Sora 利用了 Diffusion model 和 Transformer 架構的結合,形成一種創新的影像生成模型。在這裡,「含噪聲 patches(noisy patches)」指的是經過一定程度隨機干擾的影像數據片段,而「clean patches」則是指未受干擾的原始影像數據片段,Sora 通過學習如何從含噪聲的數據中恢復出乾淨的數據,從而能夠生成新的視頻內容。
此外,隨著訓練過程中計算資源與訓練數據的增加,Sora 逐漸展現出能夠產生更高質量的影像樣本的能力。
這意味著如同奠基在 Transformer 架構上的 LLM,Sora 也展示了一種 Emergent property(頓悟現象),這意思是當 Sora 模型接受更多的訓練數據和計算資源時,它的性能和生成影片的質量是顯著提高的,它展現出一些在訓練初期未必明顯的新特性和能力,這種性質表明,Sora 的影像生成能力不僅僅是簡單的數據處理或模式識別,而是隨著訓練的深入,能夠「頓悟」出更複雜、更細膩的視覺敘事和動態模擬能力。
這種『頓悟現象』是如同 GPT 這類參數量數以億計的 LLM 會展現出特有的現象,尤其是在處理大規模數據和複雜任務時更為明顯。Sora 通過學習和理解大量影像數據中的時空關係和物理規律,隨著訓練的積累,能夠生成越來越高質量的視頻,這些影像在視覺質感、動態連貫性和物理準確性方面越來越接近真實世界或超越真實世界的表現。
可以說 Sora 展示了通過擴展訓練數據集和算力,能夠實現非預期中的性能提升和能力擴展的『頓悟特質』。
Spacetime latent patches 之於 Sora 就如同 token 之於 GPT model
在 GPT 等自然語言處理模型中,文本被分解為 token,這些 token 作為模型學習和生成文本的基本單位。同樣地,在 Sora 模型中,影片和圖像被分解為 Spacetime latent patches,這些 patches 則作為學習和生成視覺內容的基本單位。