December 2023

Mixtral 8x 7B – MoE by Mistral AI 我只是略懂

Mistral 模型配置概況

The pricing of generative AI foundation models

基本上，在 AWS 上要能夠成功執行起 Llama 2 Chat (7B) #7B而已呦不是70B呦的 Hello World 沒開個 g5.4xlarge 是跑不起來的，一個月不關機器採用 on-demand 的話要燒掉 37,968.84 TWD，反之用 AWS 的 Bedrock 你開個 Llama 2 Chat（70B）每 1k tokens 的推論成本只要 0.00195 USD，也是就 0.061 TWD，不得不說 IaaS 的經濟規模化真的是非常強大，做 model routing 不用 IaaS 的解決方案勢必是非常沒有效率的，除非有很特殊的需求必須徹底從模型的原始權重開始訓練起，不然自己部署 foundation model 幾乎是沒有任何好處。

Meta AI seamlessM4T_v2_large 實驗

我實驗環境是部署在 GCP 上，Compute Engine 選用的 GPU 是 NVIDIA T4 1 x GPU，登入主機後第一件事當是是要先確定你啟用的 Instance 真的有 GPU 沒出意外的話，CLI 上會顯示再來就是要確保你的主機有安裝好 CUDA，這邊基本上就是按照 Nvidia 官網上的教學一步一步的完成安裝 CUDA Toolkit 12.3 Update 1 Downloads 當你透過上述方法安裝完成 CUDA Toolkit 後，它已經包括安裝與該版本 CUDA Toolkit 相容的必要 NVIDIA 驅動程式。 Check for NVIDIA GPU and Driver Status 根據 NVIDIA 官方的教學完成 CUDA 安裝之後，可以使用 nvidia-smi 這個指令去查看 GPU 使用情況的資訊，包括驅動程式版本、GPU 利用率、記憶體使用情況等等。如果一切順利，你的 CLI

Take a break and read all about it

Mixtral 8x 7B – MoE by Mistral AI 我只是略懂

The pricing of generative AI foundation models

Meta AI seamlessM4T_v2_large 實驗

Start typing and press enter to search