根據 Google DeepMind 於 2026 年 2 月 19 日發布的 Gemini 3.1 Pro Model Card,逐一解析所有出現的評測基準,並結合模型架構、前沿安全評估與跨模型競爭格局進行深度分析。
讀懂這張 Model Card 之前,你需要知道的事
Gemini 3.1 Pro 是基於 Gemini 3 Pro 的迭代版本,屬於 Gemini 3 系列。它是一個原生多模態推理模型,能同時理解文字、音訊、圖片、影片和整個 Code Repository。
關鍵規格:
| 項目 | 規格 |
|---|---|
| 輸入上下文窗口 | 最高 1M tokens |
| 輸出長度上限 | 64K tokens |
| 分發管道 | Gemini App、Google Cloud / Vertex AI、Google AI Studio、Gemini API、Google Antigravity、NotebookLM |
讀表須知:Thinking 模式差異
Model Card 裡的 Benchmark 成績表有個容易被忽略的細節:每個模型後面都標注了「Thinking」模式的等級。Gemini 用的是 Thinking (High),Anthropic 的 Sonnet 4.6 和 Opus 4.6 用的是 Thinking (Max),OpenAI 的 GPT-5.2 用的是 Thinking (xhigh)。這些 Thinking 模式的推論成本和延遲差異很大,但 Model Card 裡沒有標準化比較——所以你看到的分數,某種程度上是在不同「油門深度」下跑出來的成績。
另一個值得注意的是:GPT-5.3-Codex 只出現在 Terminal-Bench 2.0 和 SWE-Bench Pro 兩個程式碼相關的 benchmark 上,其他欄位全部是「—」。這暗示它可能是一個專門針對程式碼任務優化的特化模型,而非通用模型。
目錄
Benchmark 解析
- Humanity’s Last Exam(HLE)
- ARC-AGI-2
- GPQA Diamond
- Terminal-Bench 2.0
- SWE-Bench Verified
- SWE-Bench Pro
- LiveCodeBench Pro
- SciCode
- APEX-Agents
- GDPval-AA Elo
- τ²-bench
- MCP Atlas
- BrowseComp
- MMMU-Pro
- MMMLU
- MRCR v2
附錄
Humanity’s Last Exam(HLE):人類最終考試
學術推理 多模態
| 欄位 | 內容 |
|---|---|
| 創建者 | Dan Hendrycks(Center for AI Safety 執行長)與 Scale AI 聯合發起,第一作者為 Long Phan |
| 發起機構 | Center for AI Safety(CAIS)+ Scale AI |
| 發表時間 | 2025 年 1 月(arXiv: 2501.14249) |
| 題目數量 | 公開集 2,500 題 + 私有留置集(防止 Benchmark 作弊) |
| 專家規模 | 近 1,000 位領域專家,來自全球 50 個國家、超過 500 所機構 |
功能與目標
HLE 的設計初衷是解決「Benchmark 飽和」的問題。當主流 LLM 在 MMLU 等傳統測試上已經輕鬆超過 90% 準確率時,需要更難的考試來區分模型能力。HLE 涵蓋數學(41%)、物理(9%)、生物醫學(11%)、人文社科(9%)、電腦科學(10%)、工程(4%)、化學(7%)等數十個學科,14% 的題目需要同時理解文字與圖片。
每道題都經過「先讓前沿 AI 答題、答不出的才留下」的反向篩選流程,所以你可以把它想成:一場連最強 AI 都會被考倒的研究生等級考試。Dan Hendrycks 希望這是「人類需要出給 AI 的最後一場學術考試」。
Model Card 解讀
無工具條件:
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 44.4% ★ |
| Opus 4.6 | 40.0% |
| Gemini 3 Pro | 37.5% |
| GPT-5.2 | 34.5% |
| Sonnet 4.6 | 33.2% |
有工具條件(Search + Code):
| 模型 | 分數 |
|---|---|
| Opus 4.6 | 53.1% ★ |
| Gemini 3.1 Pro | 51.4% |
| Sonnet 4.6 | 49.0% |
| Gemini 3 Pro | 45.8% |
| GPT-5.2 | 45.5% |
加上搜尋和程式碼工具後,排名洗牌了。Gemini 3.1 Pro 從第一掉到第二,被 Opus 4.6 反超。這說明 Opus 4.6 在「利用外部工具來增強推理」這件事上特別強,它把搜尋到的資訊整合進推理鏈的能力,可能比 Gemini 更好。
另一個觀察:Sonnet 4.6 從 33.2% 跳到 49.0%(+15.8pp),是所有模型中工具增益最大的;而 Gemini 3.1 Pro 只從 44.4% 到 51.4%(+7.0pp)。這暗示 Gemini 的「裸機」推理能力本身就很強,但工具整合的邊際效益相對較低。
ARC-AGI-2:抽象推理語料庫(第二代)
抽象推理
| 欄位 | 內容 |
|---|---|
| 創建者 | François Chollet(Keras 框架創建者、前 Google 資深工程師) |
| 共同創辦人 | François Chollet 與 Mike Knoop(Zapier 共同創辦人)共同成立 ARC Prize Foundation(非營利組織) |
| 發表時間 | ARC-AGI-1 於 2019 年(”On the Measure of Intelligence”),ARC-AGI-2 於 2025 年 3 月 24 日(arXiv: 2505.11831) |
| 競賽獎金 | ARC Prize 2025 獎金池超過 72.5 萬美元 |
功能與目標
ARC-AGI 是目前唯一專門測量「流體智力」(Fluid Intelligence)的 AI 基準。流體智力指的是面對全新問題時,快速學習、歸納模式並解決問題的能力,就像你第一次看到一個沒見過的拼圖,能不能靠觀察範例就搞懂規則。
每道題由幾個「輸入→輸出」的網格範例組成,AI 必須從中歸納出轉換規則,然後應用到新的輸入上。題目對人類來說相當直觀(人類受測者平均 60% 正確率),但對現有 AI 來說極具挑戰。ARC-AGI-2 更強調「即時符號解讀」(on-the-fly symbol interpretation)、多步驟組合推理和情境相依規則。
Model Card 解讀
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 77.1% ★ |
| Opus 4.6 | 68.8% |
| Sonnet 4.6 | 58.3% |
| GPT-5.2 | 52.9% |
| Gemini 3 Pro | 31.1% |
這是整張表裡最戲劇性的代際進步,Gemini 3.1 Pro 比上一代暴漲 46 個百分點(31.1% → 77.1%)。考慮到 Model Card 寫明「Gemini 3.1 Pro is based on Gemini 3 Pro」,這個跳躍不太可能只靠架構改動,更可能來自訓練資料、RLHF 策略或推論時計算(inference-time compute)的重大升級。
另外,77.1% 已經超過了人類受測者的平均 60%。但要注意 ARC-AGI-2 的人類基準是「普通受測者」,不是「花了大量時間思考的專家」,所以這個比較要謹慎解讀。
GPQA Diamond:研究生等級防 Google 問答(鑽石子集)
科學知識
| 欄位 | 內容 |
|---|---|
| 創建者 | David Rein(第一作者)、Betty Li Hou、Asa Cooper Stickland、Jackson Petty、Richard Yuanzhe Pang、Julien Dirani、Julian Michael、Samuel R. Bowman |
| 發起機構 | 紐約大學(NYU)與 Anthropic |
| 發表時間 | 2023 年 11 月(arXiv: 2311.12022) |
| 題目數量 | 完整集 448 題,Diamond 子集 198 題(最難的子集) |
功能與目標
GPQA 全名是 Graduate-Level Google-Proof Q&A 意思是「研究生等級、Google 搜不到答案的問答」。題目涵蓋生物、物理、化學三大領域,全部由擁有或正在攻讀博士學位的專家撰寫。
關鍵設計:即使是高水準的非專業驗證者,在擁有完整網路搜尋權限的情況下,花費 30 分鐘以上也只能答對 34%。Diamond 子集篩選最嚴格,專家驗證者必須答對,且三位非專家中最多只能一位答對。
這個 benchmark 的雙重目標是:測量 AI 在專家級科學問題上的表現,同時推動「可擴展監督」(Scalable Oversight)的研究,當 AI 能力超越人類時,我們要怎麼監督它的輸出?
Model Card 解讀
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 94.3% ★ |
| GPT-5.2 | 92.4% |
| Gemini 3 Pro | 91.9% |
| Opus 4.6 | 91.3% |
| Sonnet 4.6 | 89.9% |
五個模型全部超過 89%,彼此間差距不到 5 個百分點。GPQA Diamond 正在接近天花板效應,人類博士專家在這個測試上大約 65-74%,所有前沿模型都已大幅超越。這個 benchmark 的鑑別力正在快速衰減。
Terminal-Bench 2.0:終端機代理人基準測試 2.0
Agentic 程式開發 工具使用
| 欄位 | 內容 |
|---|---|
| 創建者 | Mike A. Merrill、Alex Shaw 等人 |
| 發起機構 | 史丹佛大學(Stanford)與 Laude Institute,Snorkel AI 為主要外部貢獻者 |
| 發表時間 | 1.0 版於 2025 年 5 月,2.0 版於 2025 年 11 月 |
| 任務數量 | 89 個經過手動與 LLM 輔助驗證的任務 |
功能與目標
Terminal-Bench 測試的是 AI Agent 在真實終端機環境中自主完成任務的能力。實務上範例之一是你交給 AI 一台 Linux 電腦,叫它「從原始碼編譯 Linux kernel」、「設定 TLS 自簽憑證」、「訓練一個 FastText 模型」,這些就是 Terminal-Bench 裡的題目。
每個任務都有獨立的 Docker 環境、人工驗證過的解法,以及自動化測試案例。涵蓋軟體工程、資料科學、系統管理、網路安全、科學運算等領域。
Model Card 解讀
Terminus-2 harness(統一測試環境):
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 68.5% ★ |
| Opus 4.6 | 65.4% |
| GPT-5.3-Codex | 64.7% |
| Sonnet 4.6 | 59.1% |
| Gemini 3 Pro | 56.9% |
| GPT-5.2 | 54.0% |
自行報告的最佳 Harness:
| 模型 | 分數 |
|---|---|
| GPT-5.3-Codex | 77.3% ★ |
| GPT-5.2 | 62.2% |
Model Card 拆成了兩列分別是「Terminus-2 harness」和「Other best self-reported harness」,如果每個人可以自選最有利的 Harness 來報成績,那同一張表上的數字就不是在比同一件事。統一環境下 Gemini 3.1 Pro 是第一名,但 Codex 用自家 harness 跑出的 77.3% 也不能忽略,「同一個 Benchmark、不同的 Harness」可能產生截然不同的排名。
SWE-Bench Verified:軟體工程基準測試(人工驗證版)
Agentic 程式開發
| 欄位 | 內容 |
|---|---|
| 創建者 | Carlos E. Jimenez* 與 John Yang*(共同第一作者)等人 |
| 發起機構 | 普林斯頓大學(Princeton),Verified 版本由 OpenAI 協助人工驗證 |
| 發表時間 | 原始版 2023 年 10 月(ICLR 2024),Verified 版 2024 年 8 月 |
| 題目數量 | 原始 2,294 個,Verified 精選 500 個經人工驗證的高品質子集 |
功能與目標
SWE-Bench 從 12 個熱門 Python 開源專案(如 Django、Flask、scikit-learn 等)的 GitHub 上爬取真實的 Issue 與 Pull Request,然後把 Issue 描述和程式碼庫交給 AI,看它能不能自動產生正確的 Patch。Verified 版本由真人軟體工程師逐一審核,排除題目定義不清的案例。
Model Card 解讀
| 模型 | 分數 |
|---|---|
| Opus 4.6 | 80.8% ★ |
| Gemini 3.1 Pro | 80.6% |
| GPT-5.2 | 80.0% |
| Sonnet 4.6 | 79.6% |
| Gemini 3 Pro | 76.2% |
四個模型擠在 79.6%-80.8% 之間,差距只有 1.2pp。在 500 題的測試集上,Opus 4.6 以 0.2pp 險勝 Gemini 3.1 Pro,大約等於多答對一題。SWE-Bench Verified 在這個能力等級的模型之間已經快要失去鑑定能力了。Google 沒有把這列的 Gemini 分數標粗體,誠實承認 Opus 4.6 略勝。
SWE-Bench Pro:軟體工程基準測試(進階版)
多元 Agentic 程式開發
| 欄位 | 內容 |
|---|---|
| 創建者 | SWE-bench 團隊(Carlos E. Jimenez、John Yang 等) |
| 發起機構 | 普林斯頓大學 |
| 特色 | 更多樣化的 Agentic 任務,不只修 Bug,還包括目標導向的功能實作 |
功能與目標
SWE-Bench Pro 在 Verified 基礎上進一步延伸,引入更多樣化的軟體工程任務類型。評估場景更接近資深工程師的真實日常,不只是解 ticket,更要根據目標完成複雜的軟體工程工作。
Model Card 解讀
| 模型 | 分數 |
|---|---|
| GPT-5.3-Codex | 56.8% ★ |
| GPT-5.2 | 55.6% |
| Gemini 3.1 Pro | 54.2% |
| Gemini 3 Pro | 43.3% |
| Sonnet 4.6 / Opus 4.6 | — |
Sonnet 4.6 和 Opus 4.6 在這列都是「—」,可能代表尚未測試或選擇不公布。GPT-5.3-Codex 再次出現並拿下第一,進一步佐證它是專門為程式碼任務打造的模型。三個有成績的模型之間差距只有 2.6pp。
LiveCodeBench Pro:即時程式競賽基準(進階版)
競賽程式開發
| 欄位 | 內容 |
|---|---|
| 創建者 | Naman Jain、King Han、Alex Gu、Wen-Ding Li 等人 |
| 發起機構 | UC Berkeley、MIT 等多所大學 |
| 發表時間 | 2024 年 3 月(arXiv: 2403.07974) |
| 題目來源 | 持續從 LeetCode、AtCoder、Codeforces 蒐集新題目 |
功能與目標
LiveCodeBench 持續從線上程式競賽平台蒐集新題目,每道題都有明確的發布日期,如果你的模型訓練截止日是 D,就只用 D 之後的題目來測,完全避開訓練資料汙染。Pro 版本專注更高難度的競賽題目(Codeforces、ICPC、IOI 等級),用 Elo 分數衡量。
Model Card 解讀
| 模型 | Elo |
|---|---|
| Gemini 3.1 Pro | 2887 ★ |
| Gemini 3 Pro | 2439 |
| GPT-5.2 | 2393 |
| Sonnet 4.6 / Opus 4.6 / Codex | — |
Gemini 3.1 Pro 以接近 500 分的 Elo 差距領先 GPT-5.2。在 Elo 系統裡這是壓倒性的優勢,大約相當於西洋棋裡特級大師和業餘高手的差距。Elo 2887 如果對照 Codeforces 的人類排名,大致落在 Grandmaster(紅名)等級。不過缺席的模型可能根本沒有被測試過。
SciCode:科學研究程式碼基準
科學計算 研究級程式開發
| 欄位 | 內容 |
|---|---|
| 創建者 | Minyang Tian*、Luyu Gao*(共同第一作者),30 位共同作者 |
| 發起機構 | UIUC、CMU、阿貢國家實驗室、MIT、哈佛、芝加哥大學、普林斯頓等 |
| 發表時間 | 2024 年 7 月(arXiv: 2407.13168),NeurIPS 2024 Datasets & Benchmarks Track |
| 題目數量 | 80 個主問題,分解為 338 個子問題,涵蓋 6 大領域、16 個子領域 |
功能與目標
SciCode 直接從科學家日常的研究工作流程取材。很多 coding benchmark 考的是演算法題,但科學家寫程式的場景完全不一樣,他們需要把物理公式轉成模擬程式碼、用數值方法解方程、處理實驗資料。涵蓋物理、數學、材料科學、生物、化學等領域,每道題由科學家親手撰寫和驗證。
Model Card 解讀
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 59% ★ |
| Gemini 3 Pro | 56% |
| GPT-5.2 | 52% |
| Opus 4.6 | 52% |
| Sonnet 4.6 | 47% |
Gemini 在科學計算上的領先比較明確(7pp 領先 GPT-5.2 和 Opus 4.6),這跟 Google DeepMind 長期在科學 AI(AlphaFold、WeatherNext 等)上的投入一致。不過 59% 意味著仍有四成的科學研究程式碼問題搞不定。
APEX-Agents:AI 生產力指標(Agent 版)
長期規劃專業任務
| 欄位 | 內容 |
|---|---|
| 創建者 | Bertie Vidgen、Austin Mann、Abby Fennelly、John Wright 等 |
| 發起機構 | Mercor(AI 招聘平台),超過 200 位產業專家合作設計 |
| 發表時間 | 2026 年 1 月(arXiv: 2601.14242) |
| 任務數量 | 33 個世界場景、480 個任務及評分標準 |
功能與目標
APEX-Agents 要回答一個很實際的問題:AI Agent 到底能不能做專業白領工作?由投資銀行分析師、管理顧問和企業律師共同設計任務,要求 Agent 在模擬的真實工作環境中操作文件、試算表、簡報、電子郵件、行事曆等工具,完成跨應用、長時間軸的複雜專業任務。專家估計每個任務平均需要數小時才能完成。
Model Card 解讀
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 33.5% ★ |
| Opus 4.6 | 29.8% |
| GPT-5.2 | 23.0% |
| Gemini 3 Pro | 18.4% |
| Sonnet 4.6 | — |
所有模型的分數都很低,最高也才三成出頭。這是目前「離 AGI 最遠」的 benchmark 之一,測量的不是回答問題的能力,而是長時間自主工作的能力。但 Gemini 3.1 Pro 比上一代進步了 15pp,比 GPT-5.2 領先超過 10pp。Model Card 的「Intended Usage」章節把「agentic performance」列在第一位,可見這是 Google 的戰略重心。
GDPval-AA Elo:通用領域專家任務評測
專家任務
| 欄位 | 內容 |
|---|---|
| 創建者 | Artificial Analysis(獨立 AI 評測組織) |
| 評分方式 | Elo 排名制,基於通用領域專家級任務的配對比較 |
功能與目標
GDPval-AA 用 Elo 評分系統(類似西洋棋排名)來比較模型在各種專家級任務上的整體表現,是 Artificial Analysis Intelligence Index 的核心元件之一。
Model Card 解讀
| 模型 | Elo |
|---|---|
| Sonnet 4.6 | 1633 ★ |
| Opus 4.6 | 1606 |
| GPT-5.2 | 1462 |
| Gemini 3.1 Pro | 1317 |
| Gemini 3 Pro | 1195 |
這是 Gemini 3.1 Pro 在整張表裡表現最弱的一項,不只沒拿第一,還落後 Sonnet 4.6 超過 300 分。在 Elo 系統裡,300 分的差距代表前者勝率約 85%。Google 仍然選擇放這個成績,一方面顯示透明度,另一方面提醒我們:不同的 benchmark 反映模型能力的不同面向。Artificial Analysis 的評測偏向綜合品質判斷,這可能更接近 「一般使用者日常使用時的體感」。
τ²-bench(Tau-2-Bench):雙重控制對話 Agent 基準
Agentic 與工具使用
| 欄位 | 內容 |
|---|---|
| 創建者 | Victor Barres 等人 |
| 發起機構 | Sierra Research(由前 Salesforce 共同執行長 Bret Taylor 與前 Google AI 負責人共同創辦) |
| 發表時間 | 2025 年 6 月(arXiv: 2506.07982) |
| 評測領域 | 零售(Retail)、航空(Airline)、電信(Telecom) |
功能與目標
大多數 AI Agent benchmark 都假設只有 AI 一方在操作工具,使用者只是被動提供資訊。但真實世界的客服場景不是這樣,客戶也會自己操作設備、修改設定。τ²-bench 用「去中心化部分可觀測馬可夫決策過程」(Dec-POMDP)來建模,AI Agent 和使用者都可以操作工具、改變共享環境的狀態。
Model Card 解讀
Retail:
| 模型 | 分數 |
|---|---|
| Opus 4.6 | 91.9% ★ |
| Sonnet 4.6 | 91.7% |
| Gemini 3.1 Pro | 90.8% |
| Gemini 3 Pro | 85.3% |
| GPT-5.2 | 82.0% |
Telecom:
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 99.3% ★(並列) |
| Opus 4.6 | 99.3% ★(並列) |
| GPT-5.2 | 98.7% |
| Gemini 3 Pro | 98.0% |
| Sonnet 4.6 | 97.9% |
洞察: Telecom 上幾乎所有模型都超過 97%,接近天花板;但 Retail 的分數分散得多,GPT-5.2 掉到 82%。電信客服的操作步驟相對標準化,而零售場景可能涉及更多開放式判斷。
MCP Atlas:MCP 多步驟工作流程基準
工具使用
| 欄位 | 內容 |
|---|---|
| 發表時間 | 2026 年 2 月(arXiv: 2602.00933) |
| 特色 | 評測 AI Agent 在大規模 MCP(Model Context Protocol)工具集上的導航與使用能力 |
功能與目標
MCP(Model Context Protocol)是 Anthropic 在 2024 年底推出的標準化工具宣告與伺服器組合協定,現在已成為 AI Agent 連接外部工具的事實標準。MCP Atlas 模擬真實場景:Agent 面前有幾十個 MCP Server,每個提供不同工具,Agent 必須自己判斷該用哪些工具、按什麼順序使用。
Model Card 解讀
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 69.2% ★ |
| Sonnet 4.6 | 61.3% |
| GPT-5.2 | 60.6% |
| Opus 4.6 | 59.5% |
| Gemini 3 Pro | 54.1% |
洞察: MCP 是 Anthropic 自己推出的協定,但 Gemini 3.1 Pro 在 MCP 相關的 benchmark 上反而贏過 Anthropic 的模型。這可能代表 MCP Atlas 測的是「通用的多工具規劃能力」,跟你對 MCP 協定本身的熟悉程度關係不大。
BrowseComp:網路瀏覽 Agent 競賽基準
Agentic 搜尋
| 欄位 | 內容 |
|---|---|
| 創建者 | Jason Wei(第一作者)等 OpenAI 研究團隊成員 |
| 發起機構 | OpenAI |
| 發表時間 | 2025 年 4 月(arXiv: 2504.12516) |
| 題目數量 | 1,266 道題目 |
功能與目標
BrowseComp 測試 AI Agent 在網路上搜尋難以找到的資訊的能力,不是資訊不存在,而是你沒辦法靠一兩個關鍵字搜尋就找到,可能需要瀏覽幾十甚至上百個網頁、跨來源交叉比對。題目設計遵循「驗證不對稱性」(asymmetry of verification):找到答案很難,但驗證答案對不對很簡單。
Model Card 解讀
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 85.9% ★ |
| Opus 4.6 | 84.0% |
| Sonnet 4.6 | 74.7% |
| GPT-5.2 | 65.8% |
| Gemini 3 Pro | 59.2% |
洞察: 這是一個由 OpenAI 設計的 benchmark,但 Gemini 3.1 Pro 拿了第一,而 OpenAI 自己的 GPT-5.2 只排第四。BrowseComp 需要「Search + Python + Browse」三種工具協同運作,這可能跟 Google 在搜尋引擎上的天然優勢有關。Gemini 3.1 Pro 比上一代進步了 26.7pp,是繼 ARC-AGI-2 之後第二大的代際跳躍。
MMMU-Pro:大規模多學科多模態理解(強化版)
多模態理解與推理
| 欄位 | 內容 |
|---|---|
| 創建者 | Xiang Yue(第一作者)等,由 Wenhu Chen 和 Graham Neubig 指導 |
| 發起機構 | CMU、俄亥俄州立大學、滑鐵盧大學等 |
| 發表時間 | 2024 年(ACL 2025 正式刊出) |
| 題目數量 | 3,460 題,涵蓋 6 大學科、30 個科目 |
功能與目標
MMMU-Pro 做了三件事讓多模態評測更難作弊:移除純文字模型也能答對的題目、把選項從 4 個增加到 10 個、引入「純視覺輸入」模式,問題直接嵌入截圖或照片中,模型必須真正「看到」並「讀懂」圖中的文字。涵蓋藝術設計、商業、科學、健康醫學、人文社科、科技工程等 30 個科目。
Model Card 解讀
| 模型 | 分數 |
|---|---|
| Gemini 3 Pro | 81.0% ★ |
| Gemini 3.1 Pro | 80.5% |
| GPT-5.2 | 79.5% |
| Sonnet 4.6 | 74.5% |
| Opus 4.6 | 73.9% |
洞察: 這是整張表裡最反常的一列:Gemini 3.1 Pro 居然比上一代 Gemini 3 Pro 低了 0.5pp。雖然差距很小,但這是唯一一個「新模型不如舊模型」的項目。可能的解釋包括:推論隨機性(0.5pp 在統計上可能不顯著)、訓練調整導致多模態理解的微幅回退(alignment tax),或 Thinking (High) 模式在這類任務上不如直接回答。Google 選擇如實呈現這個數字,而不是只報更好的那個——這一點值得肯定。
MMMLU(Multilingual MMLU):多語言大規模多任務語言理解
多語言問答
| 欄位 | 內容 |
|---|---|
| 原始 MMLU 創建者 | Dan Hendrycks 等人(2020 年,UC Berkeley) |
| 多語言版本 | 由 OpenAI 等團隊擴展為多語言版本 |
功能與目標
MMLU 是最經典的 LLM 知識與推理基準之一,涵蓋 57 個科目、從小學到研究生等級的知識。MMMLU 是它的多語言版本,測試模型在不同語言中是否仍能保持相同的推理能力,你的模型用英文答得很好,換成日文、中文、阿拉伯文呢?
Model Card 解讀
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 92.6% ★ |
| Gemini 3 Pro | 91.8% |
| Opus 4.6 | 91.1% |
| GPT-5.2 | 89.6% |
| Sonnet 4.6 | 89.3% |
洞察: 所有模型都超過 89%,差距只有 3.3pp。跟 GPQA Diamond 類似,MMMLU 也正在接近天花板。Gemini 的多語言表現一直領先,這可能跟 Google 長年經營多語言搜尋和翻譯服務累積的訓練資料優勢有關。
MRCR v2(Multi-Round Coreference Resolution):多輪共指消解
長上下文
| 欄位 | 內容 |
|---|---|
| 創建者 | OpenAI 團隊設計 |
| 特色 | 8-needle 版本,在長文本中同時追蹤 8 個目標資訊 |
功能與目標
MRCR 是「大海撈針」(Needle-in-a-Haystack)測試的進階版。傳統測試只藏一條關鍵資訊,MRCR v2(8-needle)同時藏了 8 條不同的關鍵資訊,測試模型能不能同時追蹤並正確回憶多個目標。它用合成的多輪對話作為「乾草堆」,模型不只要找到這些「針」,還需要正確處理共指關係。
Model Card 解讀
128K(平均):
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 84.9% ★(並列) |
| Sonnet 4.6 | 84.9% ★(並列) |
| Opus 4.6 | 84.0% |
| GPT-5.2 | 83.8% |
| Gemini 3 Pro | 77.0% |
1M(pointwise):
| 模型 | 分數 |
|---|---|
| Gemini 3.1 Pro | 26.3% |
| Gemini 3 Pro | 26.3% |
| 其他所有模型 | 不支援 |
洞察: 128K 上四個模型都在 83-85% 之間。但真正的看點是 1M token 那一列:只有 Gemini 系列支援百萬級上下文。不過 26.3% 的分數也說明,即使你「支援」百萬 token,同時追蹤 8 條資訊的能力在那個長度下還是很弱。而且 Gemini 3.1 Pro 在 1M 上的分數跟 Gemini 3 Pro 完全一樣(都是 26.3%),這暗示超長上下文的注意力效能在這次迭代中並沒有顯著改善。
附錄 A:跨模型競爭格局總覽
以下統計各模型在 16 個 benchmark 項目(含子項共 18 列)中的奪冠/並列奪冠次數:
| 模型 | 奪冠/並列次數 | 明顯落後項目 |
|---|---|---|
| Gemini 3.1 Pro | 12 / 18 | GDPval-AA(第 4) |
| Opus 4.6 | 5 / 18 | — |
| Sonnet 4.6 | 2 / 18 | APEX-Agents(無分數) |
| GPT-5.2 | 0 / 18 | BrowseComp(第 4) |
| GPT-5.3-Codex | 1 / 18 | 僅出現在 2 項 |
| Gemini 3 Pro | 1 / 18 | 已是上一代 |
Google 的敘事很清楚: Gemini 3.1 Pro 在大多數 benchmark 上領先或接近領先,尤其在 Agentic 任務(APEX-Agents、MCP Atlas、BrowseComp)和推理(ARC-AGI-2、HLE、GPQA Diamond)上表現突出。
但如果你只看 GDPval-AA Elo 也就是「日常使用體感」最相關的指標,Anthropic 的模型還是遙遙領先。這就是 benchmark 的弔詭之處:你選哪些指標來比,就會得到不同的結論。
另一個趨勢是 GPT-5.3-Codex 的出現。它只在兩個程式碼 benchmark 上出場,但在 Terminal-Bench 2.0(自報 harness)上拿到了全場最高的 77.3%。這暗示 OpenAI 正在走「通用模型 + 特化模型」的雙軌策略。
附錄 B:前沿安全評估摘要(Frontier Safety Framework)
Model Card 的後半段包含了 Frontier Safety Framework(FSF)的評估結果。FSF 的核心邏輯是維持一個「安全緩衝區」,如果模型還沒觸及警戒閾值(alert threshold),就可以合理假設在下次定期檢測之前,模型不會突破關鍵能力水準(Critical Capability Levels, CCLs)。
以下是 Gemini 3.1 Pro(聚焦 Deep Think 模式)在五大風險領域的評估結果:
CBRN(化學 / 生物 / 放射 / 核子)
| 項目 | 內容 |
|---|---|
| CCL | Uplift Level 1 |
| 結果 | ❌ 未達 CCL |
| 說明 | 模型能提供高度準確且可操作的資訊,但仍無法為低到中等資源的威脅行為者提供足夠新穎或完整的關鍵階段指引。持續部署緩解措施。 |
網路安全(Cyber)
| 項目 | 內容 |
|---|---|
| CCL | Uplift Level 1 |
| 結果 | ⚠️ 觸及警戒閾值,但未達 CCL |
| 說明 | 相較 Gemini 3 Pro 能力有所提升。Gemini 3 Pro 曾觸及警戒閾值,3.1 Pro 同樣觸及,但仍未達到 CCL 所需的提升水準。Deep Think 模式考量推論成本後,表現反而比不用 Deep Think 差。 持續部署緩解措施。 |
有害操縱(Harmful Manipulation)
| 項目 | 內容 |
|---|---|
| CCL | Level 1(探索性) |
| 結果 | ❌ 未達 CCL |
| 說明 | 模型在信念改變指標上的操縱效力高於非 AI 基線,最大勝算比為 3.6 倍(與 Gemini 3 Pro 相同),未觸及警戒閾值。 |
機器學習研發(ML R&D)
| 項目 | 內容 |
|---|---|
| CCL | Acceleration Level 1 / Automation Level 1 |
| 結果 | ❌ 未達 CCL |
| 說明 | RE-Bench 人類標準化平均分數從 Gemini 3 Pro 的 1.04 提升到 1.27。在「Optimise LLM Foundry」挑戰上拿到人類基線兩倍的分數(把微調腳本執行時間從 300 秒降到 47 秒,人類參考解是 94 秒)。但跨所有挑戰的平均表現仍在警戒閾值以下。 |
失準(Misalignment)— 探索性
| 項目 | 內容 |
|---|---|
| CCL | Instrumental Reasoning Levels 1 + 2(探索性) |
| 結果 | ❌ 未達 CCL |
| 說明 | 在「隱蔽行為」評估上與 Gemini 3 Pro 相近。在「情境覺察」上更強:在三個過去沒有模型能穩定通過的挑戰(max tokens、context size mod、oversight frequency)上達到接近 100% 成功率。但其他挑戰表現不一致。 |
特別值得關注的兩點:
- 網路安全是唯一觸及警戒閾值的領域:Gemini 3 Pro 就已經觸及,3.1 Pro 能力更強但仍控制在 CCL 以下。
- 失準評估中的「情境覺察」進步值得追蹤:模型能理解自己的 max tokens 限制、上下文大小、被監督的頻率。這些能力本身有用(比如更好地管理長對話),但也是 AI 安全研究者密切關注的「前兆指標」,因為高度的情境覺察是模型可能發展出策略性行為的前提條件。
附錄 C:安全與內容政策評估
Gemini 3.1 Pro 相對於 Gemini 3 Pro 的安全性變化(自動化評估結果,非人工評估或紅隊測試):
| 評估項目 | 相對 Gemini 3 Pro 的變化 | 趨勢 |
|---|---|---|
| 文字→文字安全 | +0.10%(非嚴重) | 🟢 改善 |
| 多語言安全 | +0.11%(非嚴重) | 🟢 改善 |
| 圖片→文字安全 | -0.33% | 🔴 輕微退步 |
| 語氣(敏感話題) | +0.02% | 🟢 改善 |
| 不合理拒絕 | -0.08% | 🔴 輕微退步 |
Google 指出這些變化幅度都很小,人工審查確認退步的部分絕大多數是誤報(false positive)或非嚴重案例。兒童安全方面,3.1 Pro 通過了由專家團隊制定的上線門檻,表現與 Gemini 3 Pro 相當。
附錄 D:Benchmark 總覽對照表(完整版)
★ 標記表示該列最高分。
| Benchmark | 條件 | 3.1 Pro | 3 Pro | Sonnet 4.6 | Opus 4.6 | GPT-5.2 | Codex |
|---|---|---|---|---|---|---|---|
| HLE | 無工具 | 44.4% ★ | 37.5% | 33.2% | 40.0% | 34.5% | — |
| HLE | Search+Code | 51.4% | 45.8% | 49.0% | 53.1% ★ | 45.5% | — |
| ARC-AGI-2 | ARC Prize | 77.1% ★ | 31.1% | 58.3% | 68.8% | 52.9% | — |
| GPQA Diamond | 無工具 | 94.3% ★ | 91.9% | 89.9% | 91.3% | 92.4% | — |
| Terminal-Bench 2.0 | Terminus-2 | 68.5% ★ | 56.9% | 59.1% | 65.4% | 54.0% | 64.7% |
| Terminal-Bench 2.0 | 自報 harness | — | — | — | — | 62.2% | 77.3% ★ |
| SWE-Bench Verified | 單次嘗試 | 80.6% | 76.2% | 79.6% | 80.8% ★ | 80.0% | — |
| SWE-Bench Pro | 單次嘗試 | 54.2% | 43.3% | — | — | 55.6% | 56.8% ★ |
| LiveCodeBench Pro | Elo | 2887 ★ | 2439 | — | — | 2393 | — |
| SciCode | 59% ★ | 56% | 47% | 52% | 52% | — | |
| APEX-Agents | 33.5% ★ | 18.4% | — | 29.8% | 23.0% | — | |
| GDPval-AA Elo | 1317 | 1195 | 1633 ★ | 1606 | 1462 | — | |
| τ²-bench | Retail | 90.8% | 85.3% | 91.7% | 91.9% ★ | 82.0% | — |
| τ²-bench | Telecom | 99.3% ★ | 98.0% | 97.9% | 99.3% ★ | 98.7% | — |
| MCP Atlas | 69.2% ★ | 54.1% | 61.3% | 59.5% | 60.6% | — | |
| BrowseComp | Search+Py+Browse | 85.9% ★ | 59.2% | 74.7% | 84.0% | 65.8% | — |
| MMMU-Pro | 無工具 | 80.5% | 81.0% ★ | 74.5% | 73.9% | 79.5% | — |
| MMMLU | 92.6% ★ | 91.8% | 89.3% | 91.1% | 89.6% | — | |
| MRCR v2 8-needle | 128K 平均 | 84.9% ★ | 77.0% | 84.9% ★ | 84.0% | 83.8% | — |
| MRCR v2 8-needle | 1M pointwise | 26.3% | 26.3% | N/A | N/A | N/A | — |
這張 Model Card 告訴我們什麼?
- 三個主要突破方向。 抽象推理(ARC-AGI-2 的 46pp 跳躍)、Agentic 能力(APEX-Agents、MCP Atlas、BrowseComp 全面領先)、科學計算(SciCode、GPQA Diamond)。這跟 Model Card「Intended Usage」章節列出的四大用途(agentic performance、advanced coding、long context/multimodal、algorithmic development)高度吻合。
- 程式碼競爭格局最複雜。 SWE-Bench Verified 上四家打成平手,但 GPT-5.3-Codex 在特定 harness 下展現驚人的程式碼能力。「同一個 benchmark、不同的 harness」可能產生截然不同的排名,這是讀 Model Card 時最容易被誤導的地方。
- 天花板效應正在多個 benchmark 上出現。 GPQA Diamond(89-94%)、MMMLU(89-93%)、τ²-bench Telecom(97-99%)、SWE-Bench Verified(76-81%)都已經擁擠到幾乎無法區分模型差異。業界需要更難的 benchmark。
- Benchmark 分數高 ≠ 用起來感覺好。 Gemini 3.1 Pro 在 GDPval-AA Elo 上大幅落後 Anthropic,這暗示在「綜合品質感受」的維度上,Sonnet 4.6 和 Opus 4.6 仍然領先。
- 網路安全是最值得關注的安全領域。 Gemini 3 Pro 就已觸及警戒閾值,3.1 Pro 能力更強但仍控制在 CCL 以下。失準評估中「情境覺察」的進步是一個值得持續追蹤的信號。
- 百萬 token 上下文仍是獨家賣點,但離「好用」還有距離。 26.3% 的 8-needle 分數說明「支援」和「真正好用」之間還有很大的差距。
資料來源:deepmind.google/models/model-cards/gemini-3-1-pro · 發布日期 2026-02-19 PDF 版本:Gemini-3-1-Pro-Model-Card.pdf 方法論:deepmind.google/models/evals-methodology/gemini-3-1-pro SOTA安全報告:deepmind.google/models/fsf-reports/gemini-3-pro