liushihyen

Take a break and read all about it

Meta AI 相關專案

Seamless 筆者一句話以概之:#翻譯蒟蒻 結案! Meta 提出的 Seamless model 能夠實現 end-to-end 的表達性多語言翻譯,並支持串流的處理方式。其中一項重要貢獻是改進後的 SeamlessM4T v2 模型,該模型基於更新的 #UnitY2 框架,並增加了對低資源(low-resource)語言的訓練。#SeamlessAlign 的擴展增加了大量自動對齊數據,支持高達 76 種語言。 模型的關鍵特性 性能評估 這裡的「適應性協議(Adapted Protocols)」可能包括以下幾個方面 理論上 Meta 透過這些適應性協議進行的人類評估,有助於更全面地理解和改進這些先進的自動語音翻譯系統,確保它們不僅在技術層面上先進,也在實際使用中達到人類使用者的期望和需求。 道德和負責任使用 在資訊安全與軟體開發領域中,紅隊測試的意思是建構一組團隊去模擬針對特定系統的惡意攻擊,用於在早期發現系統中可能被大規模攻擊的弱點,並有計劃地去評估系統的堅固性。 當 Meta AI 說他們在 Seamless 專案中實作了 red-teaming 測試,直通常意味著 最終成果 Seamless 通過結合 #SeamlessExpressive 和 #SeamlessStreaming 這兩大關鍵元件,開發了首個可公開使用的系統 #Seamless,實現了即時的表達性跨語言溝通,這標誌著將通用語音翻譯器從科幻概念轉變為實用技術方面的重大進展。 Model 公開存取:包括模型、代碼和水印檢測器在內的貢獻已公開可用,Meta 表明了對開放科學和技術共享的承諾。 Meta Seamless 的潛在貢獻 Llama Emu Video & Emu Edit

Read More »

關於 NVIDIA NeMo Guardrails 我只是略懂(一)

在去年十一月 ChatGPT 出現在我眼前之後,第一個想法就是 LLMs 勢必將會快速的掃除 Chatbot 這樣一個應用領域在過去遇到的許多問題,毫無意外的,聊天機器人現在嚴然是最多開發者實踐 LLMs 的 downstream task。根據 Gartner 的一些報告,他們預期到 2027 年,聊天機器人將成為所有組織中 25% 的主要溝通渠道。 這種採用速度相當驚人,但也存在危險。聊天機器人可以非常有說服力地杜撰事實,而要像對真人一樣給聊天機器人設置指引也更加的困難。所以,如果你客服渠道後面部署了一群真人客服,他們會受過關於如何談論你的公司、不該說什麼、應該說什麼以及要禮貌等各方面的培訓。但對於 LLM-based 的聊天機器人來說在實務上是一件相當困難的事情,實作過你就會清楚的知道開發出一個 ChatGPT 的體驗跟直接與 OpenAI 的 API 串接完全是兩碼子難度的事情。 所以,當我們想要聊天機器人真正代表一個組織時,僅僅是串接上 chat completion API 絕對是組織自殺的最快路徑之一。真要導入 LLM-based 客服,中間要做的事情實在是太多了,我們需要更多技術與方法論來真正部署有用的 AI。因此,這就跟我接下來想要跟各位一起探索的 #Guardrails 有關。 Guardrails 是 NVIDIA 釋出的一個函式庫,主要用來幫助我們能夠更加安全地部署 LLM-based Chatbot。但實際上,我們可以用它做很多更多的事情。我們可以將其用於安全性、主題指引等,也可以將其用於更高階的使用。我們可以用它構建 Agents,用它進行 #RAG,當然也可以用它定義更加明確的對話流程。簡言之,如果一家公司要投資並部署聊天機器人卻不使用 Nemo Guardrails 或某種類似的 Guardrails 系統,我想都不敢想其下場會如何。就現階段我的實驗結果來說,如果你沒有這些機制,事情很容易就會 mess up。 在 LLM-based Chatbot中,最直接的作法就是讓我們的 Conversational

Read More »

網路上大神們關於創業想法的一些雜記

作為一名 #不成功連續創業者,我最近無意間看到一段 Peter Thiel 的短影片,影片中 Peter Thiel 分享了他對於「Complex Coordination」在商業世界中的重要性及其被普遍低估的見解。在這個快速變化的創業環境中,我們常常問自己:『這家公司能否成為市場上的獨角獸?』Thiel 提供了一些有趣的想法。 他強調了幾個可以使公司成為市場領導者的關鍵要素。例如,Twitter 之所以成功,是因為它在一個極簡的產品上實現了迅速的擴散。而在企業級 SaaS 這樣的領域,不斷的技術創新和穩步改進是關鍵。當然,像 #比特幣 這樣的創新也是打破傳統格局的一個範例。 然而,Thiel 特別強調了「複雜協調」的重要性,這一概念在創造壟斷力量的路上經常被忽視。這個概念與精實創業的思維有所不同,它更注重於如何將眾多零散的部分協調結合,創造出全新的價值。正如蘋果公司在過去十年里通過iPhone的成功所證明的那樣,創新並非總是關於全新的單一元素,而更多是關於將現有元素以獨特的方式結合起來,創造出難以複製的產品。 他還以特斯拉和 SpaceX 為例,指出它們成功的關鍵也在於複雜的協調。特斯拉的創新不在於單個組件的新穎性,而在於如何將這些組件融合,重塑整個分銷網絡。這種複雜的協調不僅是技術上的挑戰,還涉及到一種 Lost art of accounting:精確地計算成本並將它們有效地結合。Elon Musk 在 SpaceX 的成功正是這種思維的體現。

Read More »

關於 Andrej Karpathy 的 Intro to Large Language Models 的一些筆記

這幾天真的是非常的忙,總算在週末時騰出了些時間來看看 Andrej Karpathy 近期非常火的一段 YouTube,如果說他之前在微軟的活動上所進行的那場 State of GPT 是一場對開發者講述什麼是 LLM 的經典演說的話,那他這一次這段時長一小時的分享影片就是一場面向一般大眾介紹什麼是 LLM 的經典。 一個小時的內容全部都是非技術介紹,涵蓋了 #模型推理、#模型訓練、#模型微調 以及 LLM 的發展趨勢,以及安全挑戰。影片的內容非常的新,基本上還有涵蓋到了近一個月在 LLMs 上的相關發展,有些關於 LLMs 的觀念與知識我也是因為看了這次的分享才知道,同時也釐清了一些我對 LLMs 原本不甚瞭解的地方。 Andrej 本人真的是非常擅長簡化複雜的問題,Andrej 還說影片是他在感恩節假期的度假飯店中進行錄製的。而影片的內容大都是他最近在 #人工智慧安全高峰會 上的演講內容,不過為了讓影片內容去適合大多數一般的聽眾,他對原本演講的內容進行了一些微調。 在影片的第一章節中他主要是對大模型的整體概念進行了一些解釋。Andrej 解釋 LLM 在本質上其實就是兩個檔案,一個是 #參數檔案,一個是包含執行這些參數的程式碼檔案。前者是組成這個類神經網路的權重,後者是用來部署這個類神經網路的程式碼,可以是用 C 語言或者是其他任何程式語言進行撰寫。有了這兩個檔案,搭配上一台筆記型電腦,我們就不需要任何網路連線和其他東西就可以與這個 LLM 進行交流。 比如要求 LLM 寫首詩,他就開始為你生成文字。那麼接下來的問題就是,參數是從哪裡來的呢? 這就要提到模型訓練了。本質上來說,LLM 訓練就是對網路資料進行 #有損的壓縮。比如大約 10TB 的文字,這就需要一個巨大的 GPU cluster 來完成。以 7B 參數的 GPT-3 為例,要進行預訓練就需要 6,000 張

Read More »

關於 Claude 2.1 我只是略懂

主要的亮點 API Tools API Tools 使用是 Claude 2.1 的一個新beta功能,它允許 Claude 整合到用戶現有的流程、產品和 API 中。這意味著 Claude 不僅僅是一個獨立的 AI model,而是可以成為用戶現有工作流程的一部分,從而提高日常操作的效率和效果。 擴展互操作性:透過這個功能,Claude 允許開發者撰寫 #自定義函數、API、搜尋網際網路來源,並從 Private Knowledge Base 中檢索資料做 RAG。這意味著 Claude 可以與更廣泛的資料源和工具進行互動,明顯看出 Anthropic 有意在 Agents 領域上大力的推進。使用者在執行與 Claude model 進行互動的過程中可定義上述提及的多項工具,model 會根據使用者輸入的語料與脈絡資訊來決定要啟用哪些工具去輔助模型推論的進行。 這個功能讓 Claude 可以執行多種操作 開發者體驗 Console experience 為了簡化開發者的 UX,Claude 的 developer console 經過了重構。這包括使 prompt engineering 更加快速和簡單,從而加速學習和迭代過程。 New Workbench 開發者可以在 playground 的環境中迭代提示詞測試。開發者可以建立多個提示,並在不同的專案間輕鬆的轉換,同時進行的任何校正都會被保存下來,以保留

Read More »

The introduction of Llama-2.

1. Development and Release of Llama 2: 2. Capabilities of Large Language Models (LLMs): 3. Training Methodology of LLMs: 4. Comparison with Other Models: 5. Introduction of Llama 2 and Llama 2-Chat: 6. Novel Observations: 7. Models Being Released: 8. Release Considerations: 9. Paper Structure: The rest of the paper discusses the pre-training and fine-tuning

Read More »

What is Audio Spectrogram?

An audio spectrogram provides an intuitive representation of the frequency spectrum of an audio signal as it changes over time. For a segment of audio data over a period of time, it can be abstracted into a finite-length audio spectrogram. An audio spectrogram has a 2D representation, which can be visualized as a flat image.

Read More »

What is pre-trained visual encoders?

Understanding ‘Encoders’ Visual Encoders Training Neural Networks Pre-trained Encoders Common Datasets for Pre-training Types of Pre-trained Visual Encoders Fine-tuning & Transfer Learning Applications Challenges & Considerations Conclusion Pre-trained visual encoders leverage prior knowledge from extensive datasets to offer a head start when tackling new visual tasks. They encapsulate a form of “transfer learning,” allowing models

Read More »

What is “Learnable interface layer”?

Let’s unpack the concept of a “learnable interface layer” step by step, especially in the context of AI, language models, and Transformer architectures: Basic Understanding of Neural Networks Neural networks consist of layers of interconnected nodes (or neurons). Each connection has a weight, which is adjusted during training to minimize the difference between the predicted

Read More »

What is “Multi-Modality” in LLMs?

Basic Understanding of Modality In the context of AI, a “modality” refers to a specific type of data or way of interacting. For example, text, images, audio, and videos are different modalities. Each modality offers a unique representation of information. What is Multi-Modality? Multi-modality involves combining information from multiple modalities to improve AI’s understanding, representation,

Read More »