Seamless
筆者一句話以概之:#翻譯蒟蒻 結案!
Meta 提出的 Seamless model 能夠實現 end-to-end 的表達性多語言翻譯,並支持串流的處理方式。其中一項重要貢獻是改進後的 SeamlessM4T v2 模型,該模型基於更新的 #UnitY2 框架,並增加了對低資源(low-resource)語言的訓練。#SeamlessAlign 的擴展增加了大量自動對齊數據,支持高達 76 種語言。
模型的關鍵特性
- SeamlessExpressive: 此模型專注於在翻譯中保留語音風格和韻律,處理了諸如語速和停頓等韻律方面的不足,同時保持原聲音的風格。
- SeamlessStreaming: 利用有效的 Efficient Monotonic Multihead Attention(EMMA)機制進行低延遲翻譯,允許多語言的即時語音對語音/文字翻譯,無需等待完整的來源語句。
性能評估
- 這些模型通過結合新的和修改過的自動測試指標進行評估,專注於韻律、延遲和 robustness。
- 透過人類進行評估並採用 Adapted Protocols,測量在保持意義、自然性和表現力方面的表現。
這裡的「適應性協議(Adapted Protocols)」可能包括以下幾個方面
- 保持意義(Preservation of Meaning): 評估翻譯是否準確傳達了原始語句的意圖和內容。這不僅涉及字面上的準確度,還包括語境、文化和語調等非文字層面的考量。
- 自然性(Naturalness): 考察翻譯的語句是否流暢自然,符合目標語言的語法和語用習慣。這種評估有助於確保翻譯不僅是字面上的對應,而是真正適應了目標語言的表達方式。
- 表現力(Expressivity): 尤其在 SeamlessExpressive 模型中,評估翻譯是否能保留原聲音的風格和韻律,包括語調、情感和強調等。這是自動語音翻譯中一個非常挑戰性的領域,因為這些元素往往在語音中更為明顯,且高度依賴語境。
理論上 Meta 透過這些適應性協議進行的人類評估,有助於更全面地理解和改進這些先進的自動語音翻譯系統,確保它們不僅在技術層面上先進,也在實際使用中達到人類使用者的期望和需求。
道德和負責任使用
- 為確保負責任地使用,實施了首次已知的多模態機器翻譯 #紅隊測試。
- 引入了檢測和緩解附加毒性的系統、評估性別偏見的系統,以及反深偽造的本地化水印機制。
在資訊安全與軟體開發領域中,紅隊測試的意思是建構一組團隊去模擬針對特定系統的惡意攻擊,用於在早期發現系統中可能被大規模攻擊的弱點,並有計劃地去評估系統的堅固性。
當 Meta AI 說他們在 Seamless 專案中實作了 red-teaming 測試,直通常意味著
- Simulating Adversarial Scenarios:Red team 針對各種惡意的即時翻譯場景做了模擬攻擊,例如誘發 model 去生成不正確、帶有偏誤或是具有惡意的翻譯內容。
- Testing Robustness and Reliability:紅隊有系統的針對 model 在各種帶有惡意的測試條件下進行 model 堅固性與可靠性的評估。
- Identifying and Mitigating Biases::透過紅隊測試去早期探索出 model 本身是否會因為品質不一的訓練資料造成 model 在進行語言翻譯的時候針對特定的語言以及文化脈絡、種族帶有偏見,進而讓翻譯出來的內容帶有攻擊性與誤譯的可能性。
- Enhancing Security Measures:在針對 Seamless model 的紅隊測試另一個重要的目標是去識別出 model 是否有機會被有心人士拿去在通訊中進行 deepfakes 以及不實資訊的散散佈。
- Improving Overall System Quality:紅隊測試過程中探索出的成果,例如 model 在測試即時翻譯過程中所呈現出的正確性、公平性以及道德標準可以用來作為對下一代的 model 進行迭代的重要基礎。
最終成果 Seamless
通過結合 #SeamlessExpressive 和 #SeamlessStreaming 這兩大關鍵元件,開發了首個可公開使用的系統 #Seamless,實現了即時的表達性跨語言溝通,這標誌著將通用語音翻譯器從科幻概念轉變為實用技術方面的重大進展。
Model 公開存取:包括模型、代碼和水印檢測器在內的貢獻已公開可用,Meta 表明了對開放科學和技術共享的承諾。
Meta Seamless 的潛在貢獻
- 增強的多語言和表達性翻譯: 能夠處理廣泛的語言,特別是低資源語言,同時保留語音表達的細微差異,標誌著自動語音翻譯技術的重大飛躍。
- 同步性和低延遲: 引入不需要完整來源語句的即時翻譯解決了當前翻譯系統的一個重大限制,將對即時多語言通訊的應用帶來許多有意義的推進。
- 道德考量: 重視 #紅隊測試、#毒性檢測、#性別偏見評估 和 #反深偽措施,顯示出對道德 AI 開發和負責任部署的強烈承諾。
- 邁向通用語音翻譯: 這項工作大大縮小了當前語音翻譯技術與通用語音翻譯器願景之間的差距,這種工具可能會徹底改變全球通訊動態。
Llama
Emu Video & Emu Edit
Emu Video 的技術亮點
基於 Diffusion Model 的 text-to-video 生成:Emu Video 使用 Diffusion Model 來進行影像生成。這類模型在圖片生成領域已證明其效能,而將此概念應用於 video generation 則是一個創新步驟。Diffusion Model 通過逐步添加噪聲並再逐步去除噪聲來生成圖像,這一過程現在被用來創造動態視頻。
因式分解方法:Emu Video 將 video 生成過程分為兩個階段。首先根據 text prompt 生成靜態圖片,然後根據這些圖片和 text prompt 生成 video。這種分解方法使模型訓練更加高效,同時能夠產生更高解析度的 video。
在傳統的 video 生成方法中,模型通常直接從 text prompt 生成 video。這個過程很複雜,因為它需要同時考慮圖像的視覺內容和時間上的連續性。相比之下,因式分解方法將 video 生成分成兩個較為簡單的子任務:首先是從文本生成靜態圖像,然後是從這些靜態圖像生成動態影像。
在靜態圖像生成這一階段中,模型的任務是根據 text prompt 生成一幅靜態圖像。這相當於傳統的圖像生成任務,並且可以利用現有的圖像生成技術(例如 GANs 或 #擴散模型)來實現。一旦獲得了初始圖像,模型接下來的任務就是在時間維度上擴展這些圖像來生成影像。這一階段涉及到將靜態圖像轉變為一系列圖像(video frames),這些圖像在視覺上是連貫的,並能夠表達動態或故事情節。
單一 Diffusion Model 的應用:與之前需要多個模型相比,Emu Video 僅使用兩個擴散模型即可產生 512×512 解析度、每秒 16 frames 的四秒長 video。這表示在保持高質量的同時,模型結構更為簡潔。
Emu Edit 的技術亮點
精確圖像編輯:與傳統生成模型相比,Emu Edit 能夠更精確地根據指令修改圖像。它重點在於只更改與編輯請求相關的像素,而保持其他像素不變。
結合 CV 任務:Emu Edit 將 CV 任務(如檢測、分割)與圖像生成結合,從而在圖像生成和編輯方面提供了前所未有的可控性,這邊推測是奠基在 Meta 先前提出的 Segment Anything Model(SAM)基礎之上(?)。這種方法在執行詳細的編輯指令方面展現了巨大潛力。
大規模資料集訓練:為了訓練 Emu Edit,Meta AI 開發了一個包含 1,000萬 合成樣本的資料集,包括輸入圖像、執行任務的描述,以及目標輸出圖像。這種大規模的數據集訓練對於達到高度指令忠實度和圖像質量至關重要。
Emu Video 和 Emu Edit 的技術創新不僅在於它們的功能,更在於其背後的複雜算法和訓練方法。這些進步反映了 Generative AI 領域的快速發展,並為未來的應用提供了強大的基礎。這些技術的實際應用將開啟新的創意表達和數位內容創建的篇章,對於各行各業的專業人士和普通用戶都有重大意義。
AudioCraft
TBD
Reference
- audiocraft
Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable music generation LM with textual and melodic conditioning.