基本上,在 AWS 上要能夠成功執行起 Llama 2 Chat (7B) #7B而已呦不是70B呦 的 Hello World 沒開個 g5.4xlarge 是跑不起來的,一個月不關機器採用 on-demand 的話要燒掉 37,968.84 TWD,反之用 AWS 的 Bedrock 你開個 Llama 2 Chat(70B)每 1k tokens 的推論成本只要 0.00195 USD,也是就 0.061 TWD,不得不說 IaaS 的經濟規模化真的是非常強大,做 model routing 不用 IaaS 的解決方案勢必是非常沒有效率的,除非有很特殊的需求必須徹底從模型的原始權重開始訓練起,不然自己部署 foundation model 幾乎是沒有任何好處。
Vendor | Model name | Context | Input tokens cost per 1k tokens | Output tokens cost per 1k tokens |
---|---|---|---|---|
Amazon Bedrock | Jurassic-2 Mid | – | 0.0125 | 0.0125 |
Amazon Bedrock | Jurassic-2 Ultra | – | 0.0188 | 0.0188 |
Amazon Bedrock | Titan Text Lite | – | 0.0003 | 0.0004 |
Amazon Bedrock | Titan Text Express | – | 0.0008 | 0.0016 |
Amazon Bedrock | Claude Instant | – | 0.00163 | 0.00551 |
Anthropic | Claude Instant | 100k tokens | 0.00078 | 0.00234 |
Amazon Bedrock | Claude | – | 0.008 | 0.024 |
Anthropic | Claude 2.0 | 100k tokens | 0.0078 | 0.00234 |
Anthropic | Claude 2.1 | 200k tokens | 0.0078 | 0.00234 |
Amazon Bedrock | Cohere | Command | – | 0.0015 | 0.002 |
Cohere | Command | 0.001 | 0.002 | |
Amazon Bedrock | Cohere | Command-Light | – | 0.0003 | 0.0006 |
Cohere | Command-Light | 0.0003 | 0.0006 | |
Amazon Bedrock | Llama 2 Chat (13B) | – | 0.00075 | 0.00100 |
Amazon Bedrock | Llama 2 Chat (70B) | – | 0.00195 | 0.00256 |
Azure | Meta Llama-2-70B | 0.00154 | 0.00177 | |
OpenAI | gpt-4-1106-preview | – | 0.01 | 0.03 |
OpenAI | gpt-4-1106-vision-preview | – | 0.01 | 0.03 |
OpenAI | gpt-4 | – | 0.03 | 0.06 |
OpenAI | gpt-4-32k | – | 0.06 | 0.12 |
OpenAI | gpt-3.5-turbo-1106 | – | 0.0010 | 0.002 |
OpenAI | gpt-3.5-turbo-instruct | – | 0.0015 | 0.002 |
Azure | GPT-3.5-Turbo | 4K | 0.0015 | 0.002 |
Azure | GPT-3.5-Turbo | 16K | 0.003 | 0.004 |
Azure | GPT-4 | 8k | 0.03 | 0.06 |
Azure | GPT-4 | 32k | 0.06 | 0.12 |
GCP | PaLM 2 for Chat (Chat Bison) | – | 0.001 | 0.002 |
GCP | PaLM 2 for Chat 32k (Chat Bison 32k) | – | 0.001 | 0.002 |
GCP | Gemini | – | 0.001 | 0.002 |
Google 的 PaLM 採用的是以每千個字元為計算單位,所以我粗略的以 1,000 字元約莫 200~250 token 取 upper bound 來計算去統一計價單位,那 1k tokens ~= 4k characters,轉換後 PaLM 2 for Chat(Chat Bison)推論 1k token 的成本是 0.001 USD / 1k tokens,輸出 1k tokens 的成本是 0.002 USD / 1k tokens。
PaLM 2 for Chat(Chat Bison)
Input 1,000 characters = $0.00025
1,000 characters ~= 200 ~ 250 tokens
1,000 tokens ~= 4,000 characters
4,000 characters cost = $0.00025(cost per 1k characters)* 4 = $0.001
OpenAI token 成本估算
成本估算上我們假設一段 589 個繁體中文的語料如下。
這是一段約 589 個中文字的文字。在這段文字中,我們將探討多種主題,包括文化、科技、自然和藝術。文化是一個廣泛的主題,它包含了人們的生活方式、傳統、價值觀和信仰。每個文化都有其獨特之處,從語言到習俗,從飲食到節日慶典。例如,中國的春節和中秋節是重要的傳統節日,人們會聚在一起慶祝,分享食物,並表達對未來的祝福。
科技的進步對我們的生活產生了深遠的影響。從智能手機到人工智能,從可持續能源到太空探索,科技不斷推動著人類前進。隨著時間的推移,我們期待更多創新的技術來解決全球性的挑戰,如氣候變化和健康危機。
自然是另一個重要主題。我們的地球擁有豐富多樣的生態系統,從茂密的雨林到廣闊的沙漠,從深邃的海洋到高聳的山脈。保護自然環境對於維持生物多樣性和生態平衡至關重要。我們必須努力減少對自然資源的過度開採,並促進可持續的生活方式。
最後,藝術是表達人類情感和思想的重要方式。無論是繪畫、音樂、舞蹈還是文學,藝術以其獨特的形式激發人們的想像力和創造力。藝術不僅僅是美的追求,它還能反映社會和歷史,引發深刻的思考和對話。
通過探討這些主題,我們可以更好地理解世界,並欣賞到不同領域的豐富多樣性。無論是學習新文化,探索科技創新,欣賞自然之美,還是沉浸在藝術的世界中,我們都能從中獲得啟發和知識。這樣的探索和學習讓我們的生活更加豐富多彩,並幫助我們建立一個更加和諧、可持續的世界。
589 個繁體中文文字換算成 OpenAI 的 roken 莫是 832 tokens
以下是以 GPT-4 模型做出的估算
Tokens per execution | Words per execution | Price for 1 execution | OpenAI price for 10,000 executions |
---|---|---|---|
100 | 75 | ~$0.00450 | ~$45.00 |
200 | 150 | ~$0.00900 | ~$90.00 |
500 | 375 | ~$0.02250 | ~$225.00 |
1000 | 750 | ~$0.04500 | ~$450.00 |
2000 | 1500 | ~$0.09000 | ~$900.00 |
4000 | 3000 | ~$0.18000 | ~$1800.00 |