The pricing of generative AI foundation models
基本上,在 AWS 上要能夠成功執行起 Llama 2 Chat (7B) #7B而已呦不是70B呦 的 Hello World 沒開個 g5.4xlarge 是跑不起來的,一個月不關機器採用 on-demand 的話要燒掉 37,968.84 TWD,反之用 AWS 的 Bedrock 你開個 Llama 2 Chat(70B)每 1k tokens 的推論成本只要 0.00195 USD,也是就 0.061 TWD,不得不說 IaaS 的經濟規模化真的是非常強大,做 model routing 不用 IaaS 的解決方案勢必是非常沒有效率的,除非有很特殊的需求必須徹底從模型的原始權重開始訓練起,不然自己部署 foundation model 幾乎是沒有任何好處。
Meta AI seamlessM4T_v2_large 實驗
我實驗環境是部署在 GCP 上,Compute Engine 選用的 GPU 是 NVIDIA T4 1 x GPU,登入主機後第一件事當是是要先確定你啟用的 Instance 真的有 GPU 沒出意外的話,CLI 上會顯示 再來就是要確保你的主機有安裝好 CUDA,這邊基本上就是按照 Nvidia 官網上的教學一步一步的完成安裝 CUDA Toolkit 12.3 Update 1 Downloads 當你透過上述方法安裝完成 CUDA Toolkit 後,它已經包括安裝與該版本 CUDA Toolkit 相容的必要 NVIDIA 驅動程式。 Check for NVIDIA GPU and Driver Status 根據 NVIDIA 官方的教學完成 CUDA 安裝之後,可以使用 nvidia-smi 這個指令去查看 GPU 使用情況的資訊,包括驅動程式版本、GPU 利用率、記憶體使用情況等等。 如果一切順利,你的 CLI