這幾天真的是非常的忙,總算在週末時騰出了些時間來看看 Andrej Karpathy 近期非常火的一段 YouTube,如果說他之前在微軟的活動上所進行的那場 State of GPT 是一場對開發者講述什麼是 LLM 的經典演說的話,那他這一次這段時長一小時的分享影片就是一場面向一般大眾介紹什麼是 LLM 的經典。 一個小時的內容全部都是非技術介紹,涵蓋了 #模型推理、#模型訓練、#模型微調 以及 LLM 的發展趨勢,以及安全挑戰。影片的內容非常的新,基本上還有涵蓋到了近一個月在 LLMs 上的相關發展,有些關於 LLMs 的觀念與知識我也是因為看了這次的分享才知道,同時也釐清了一些我對 LLMs 原本不甚瞭解的地方。 Andrej 本人真的是非常擅長簡化複雜的問題,Andrej 還說影片是他在感恩節假期的度假飯店中進行錄製的。而影片的內容大都是他最近在 #人工智慧安全高峰會 上的演講內容,不過為了讓影片內容去適合大多數一般的聽眾,他對原本演講的內容進行了一些微調。 在影片的第一章節中他主要是對大模型的整體概念進行了一些解釋。Andrej 解釋 LLM 在本質上其實就是兩個檔案,一個是 #參數檔案,一個是包含執行這些參數的程式碼檔案。前者是組成這個類神經網路的權重,後者是用來部署這個類神經網路的程式碼,可以是用 C 語言或者是其他任何程式語言進行撰寫。有了這兩個檔案,搭配上一台筆記型電腦,我們就不需要任何網路連線和其他東西就可以與這個 LLM 進行交流。 比如要求 LLM 寫首詩,他就開始為你生成文字。那麼接下來的問題就是,參數是從哪裡來的呢? 這就要提到模型訓練了。本質上來說,LLM 訓練就是對網路資料進行 #有損的壓縮。比如大約 10TB 的文字,這就需要一個巨大的 GPU cluster 來完成。以 7B 參數的 GPT-3 為例,要進行預訓練就需要 6,000 張