關於 OpenAI 的 Deep Research

2025 年 2 月,OpenAI 正式推出「深度研究」(Deep Research)功能,這個被稱為「推理型代理」的技術,標誌著 AI 在知識工作領域有了重大的改變。它可以自己去瀏覽網路、分析幾百份資料,然後整理成研究報告,30分鐘內就可以完成人類要花好幾個小時才能搞定的複雜工作。接下來我們要仔細說明這個技術是怎麼運作的、實際上可以怎麼用,還有它會怎麼重新定義專業研究的範圍。


▋深度研究的核心架構:從拿到資料到創造知識

深度研究是用 OpenAI 最新開發的「o3模型」當基礎,結合強化學習跟工具使用的能力,特別為了處理開放式網路資訊做了優化。比起前一代的 o1 模型(擅長 Coding 跟數學推理),o3 最新穎的地方是「動態推理鏈」的設計:當看到資料有衝突的時候,它會自己改變搜尋的方式,像是在分析 iOS 市占率的時候,如果發現不同地區的數字不一樣,就會換個地方找資料,然後再做交叉比對。

研發團隊講說,訓練這個模型的時候特別加強了「工具協調」的能力,包括:

➤ Python 工具:自動生成分析資料的程式,例如把各國學習語言的意願變成熱力圖
➤ 跨模態解析:可以同時處理文字、PDF 還有圖片,像是從學術論文的圖表中找出重要的參數
➤ 引證追蹤系統:每個結論都會標註來源網址,還會在旁邊顯示推理的過程

這種「白箱化」的設計,就是為了讓金融分析師、政策研究員這些專業人士可以驗證內容。照 OpenAI 內部測試的結果,在分析 50 頁以上的政策白皮書時,深度研究標註資料來源的準確率有 92%,比 GPT-4o 提高了 37%。


▋實戰案例:看看 AI 研究代理有多厲害

透過實際的案例,最容易了解深度研究是怎麼突破傳統 AI 的限制:

▋案例1:跨境市場策略制定

當使用者要求「比較十大已開發與新興國家的 iOS 採用率與語言學習走向」,深度研究(號稱)展現出驚人的整合能力:

➤ 自己判斷出 GDP 排名可能因為匯率變動而有誤差,優先使用 PPP 調整後的數字
➤ 找到日本市場的「英語學習熱潮」跟高齡化社會有關,提出「銀髮教育科技」的切入建議
➤ 整合世界銀行教育支出的資料,推測印度雖然 Android 占有率很高,但隱藏著對 iOS 的需求

▋案例2:跨世紀語言演變推演

在「創造22世紀克里奧爾英語」的任務中,這個模型不只融合印地語的格位標記、土耳其語的重疊構詞,還展現出語言學理論的應用能力:

➤ 根據薩丕爾-沃夫假說,推導介係詞前綴化會怎麼影響空間認知
➤ 參考冰島語的「及物虛主詞」結構,重新設計存在句法
➤ 自動生成符合 IPA 標準的語音樣本,給電影製作團隊參考

這些案例說明了深度研究跟一般聊天機器人的根本差異:它不只是整理資訊的工具,而是具備「提出假設-驗證-修正」能力的數位研究員。


▋技術評估:重新定義 AI 能力的標準

OpenAI 公布的三項重要測試,展現出深度研究的突破性表現:

  • Humanity’s Last Exam(人類終極考試):在這個涵蓋 100 多個學科的專家級測試中,深度研究以 26.6% 的準確率刷新紀錄,特別是在化學(↑58%)和社會科學(↑49%)領域表現特別好。像是在「玻璃態聚合物氣體吸附」的題目中,它可以對照 2012 年《PLOS ONE》的論文跟 2024 年的預印本,說明傳統雙模式吸附模型的限制。
  • GAIA 基準測試:面對需要現實世界知識的複雜問題,深度研究在 Level 3 任務(最難級別)達到 58% 的成功率。像是在分析「1959年美國脫水食品標準」時,它可以追蹤法規修改的歷史,算出 76% 的標準已經更新,還附上 FDA 法規資料庫的版本比較表。
  • 經濟價值導向評估:內部資料顯示,深度研究在「高經濟價值任務」(像是新藥市場分析)的完成率有 72%,遠超過人類專家平均的 42%。這種「價值敏感度」是來自模型訓練時加入的獎勵函數,可以優先處理專利引用、臨床試驗這類重要資訊。

▋應用場景與產業衝擊

從目前的案例可以預見,深度研究會重新塑造很多需要大量知識的領域:

▋金融業:

➤ 自動產生併購案的監管風險矩陣,整合 27 國反壟斷法的案例
➤ 即時分析聯準會聲明的用詞變化,計算出鷹派說法對市場的影響係數

▋生醫研究:

➤ 交叉比對臨床試驗資料庫,找出基因療法沒有揭露的免疫原性風險
➤ 自動畫出蛋白質工程修改路徑,像是 CRISPR-Cas9 的脫靶效應高風險區域

▋公共政策:

➤ 模擬碳稅政策在不同產業鏈的連鎖反應,預測隱藏的失業率轉折點
➤ 追蹤極端氣候對糧食供應鏈的影響,提出區域性的解決方案

特別要注意的是,深度研究很會處理『非結構化資訊差距』,舉例來說,當使用者想查『NFL 踢球員平均退役年齡』時,它可以交叉分析勞資協議、運動醫學論文,甚至計算頭盔設計演進對職業生涯的影響。


▋技術限制與倫理問題

雖然前景很好,但深度研究還是有明顯的限制:

  • 時效性盲區:對於 24 小時內發生的突發事件(像是股市大跌)反應太慢,因為訓練資料有 3-6 個月的延遲
  • 文化脈絡判斷錯誤:在分析宗教衝突這類敏感議題時,可能會忽略當地特有的知識(像是非洲口述傳統)
  • 合規風險:自動抓取專利資料庫時,可能會碰到智慧財產權的灰色地帶

OpenAI 也坦白承認,現在的版本在「信心校準」方面還有問題。當模型出錯時,有 23% 的機率會很有把握地給出錯誤的結論。這在醫療診斷這類領域可能會造成嚴重後果。


▋從研究代理到知識生態系

隨著 API 連接功能的開放,深度研究會進化成「生態系中樞」:

➤ 企業端:串接內部資料庫,自動產生合規審查報告
➤ 學術端:整合 Zotero 文獻管理系統,即時推薦跨學科的引用網絡
➤ 個人端:連結智慧家居資料,優化家庭能源使用的規劃

OpenAI 預告說,年底前會推出「即時校驗」功能,讓使用者可以上傳自己的知識庫(像是律所的判例集),打造個人化的研究引擎。當深度研究跟行動代理(像是機械手臂)結合,甚至可能實現「研究-執行」的循環,例如自動設計並執行實驗方案。


▋知識民主化的新時代

深度研究的出現,基本上是把「專業洞察力」變成可以程式化的服務。它不是要取代人類專家,而是要讓每個想學習的人都能擁有專家的模式識別能力。當 70 億人都可以運用 AI 等級的產業分析能力,我們迎來的可能不是失業潮,而是人類集體智慧的大躍進。

就像 OpenAI 技術長在發表會說的:「這不是工具的革命,而是思考方式的進化——當每個決策都能建立在全人類的知識總和上,我們將重新定義什麼是『理性選擇』。」在這場悄悄進行的知識革命中,深度研究不是終點,而是通往 AGI 路上的一盞明燈。

Leave a Comment

Your email address will not be published. Required fields are marked *