寫在開始
我一直很關注 Synthetic data 這件事情,因為在陪跑製造業客戶的初期,要取得工廠產線的關鍵數據表(ex. MES數據、OA數據、BOM表等等族繁不及備載)做訓練與概念驗證是一件非常艱困的事情,所以我們經常需要在入行夠深之後使用 AI去做合成數據的生成來做各種前期的 POC,我對這個議題是相當有感的,公司會持續地投注資源在這題目上。
Intro
近期 AI 公司面臨一個前所未有的挑戰:他們聲稱已經快要用光高品質的真實世界資料來訓練模型了。作為解決方案,這些公司開始轉向「合成資料」
也就是由 AI 系統自己產生的資料。
═════✧═════
什麼是合成資料?為何現在成為焦點?
DatologyAI 的共同創辦人兼 CEO Ari Morcos 說明,合成資料點就是由模型產生,而不是由人類或真實世界創造的資料點。聽起來很簡單,但背後的意涵卻很複雜。
想想看,在 2010 年代,機器學習模型的訓練方式是讓人類標記資料,像是告訴電腦「這是貓」、「這是狗」。最大的資料集大概只有一百萬個資料點。但到了 2010 年代後期,出現了突破性的「自監督學習」技術,讓模型可以直接從未標記的資料中學習。
這個變化有多誇張?從一百萬個資料點,一下子跳到數兆個 token,基本上就是整個網際網路。這是三到五年內增長了一百萬倍的資料量。
═════✧═════
所以,我們真的會用光資料嗎?
這個問題沒有標準答案。MIT 的 Kalyan Veeramachaneni 指出,雖然公開領域的資料確實快用完了,但問題的核心不在於「更多資料」,而在於「更好地使用現有資料」。
像是網路上有無數個《哈姆雷特》的摘要,但模型其實不需要全部都看過才能理解劇情。大部分網路資料要不是重複的,要不就是在錯誤時機出現的。就像教中學生數學,給他們看微積分太難,給他們看加減法又太簡單,需要的是幾何和代數。
但我們現在的訓練方式是把所有資料混在一起,而不是根據模型當前的理解程度來調整教學內容。
═════✧═════
合成資料的應用案例
Princeton 的 Felix Heide 教授在自駕車領域的研究很有啟發性。他們可以產生幾乎逼真的駕駛場景,讓自駕車在模擬環境中遇到各種罕見但關鍵的情況,像是撞車、偏離車道、或是遇到路邊垃圾桶擋路。
金融詐騙偵測是另一個好例子。銀行可能有一千萬筆正常交易,但只有一萬筆詐騙案例。這種不平衡的資料讓模型很難學會辨識詐騙。透過合成資料,可以產生更多類似詐騙的案例來訓練模型。
═════✧═════
但是,風險在哪裡?
Rice University 的 Richard Baraniuk 教授發現了一個令人擔憂的現象:「模型崩潰」。當你用合成資料訓練新模型,再用這些模型產生更多合成資料時,即使是微小的錯誤也會被放大。
他的實驗顯示,一開始用合成資料訓練的模型可以產生逼真的人臉,但隨著訓練繼續,後來的輸出會出現奇怪的圖案。這就像影印機影印影印品,每一代的品質都會下降。
更可怕的是,DataCebo 的研究發現,只要改變句子中的一個詞,就能讓貸款核准系統做出完全不同的決定。而這個系統還是用真實資料訓練的。
═════✧═════
我們該怎麼辦?
專家們的共識是:混搭使用,謹慎測試。Ari Morcos 建議合成資料的比例不要超過 50%,而且每次產生合成資料後都要進行嚴格篩選。
關鍵在於兩個策略:
- 不要試圖產生全新的場景,而是拿現有的真實案例稍作調整。像是把已知的詐騙案例改寫成不同格式,這樣比較安全。
- 建立嚴格的測試框架。特別是在醫療、金融等影響重大的領域,需要更謹慎的驗證過程。
═════✧═════
合成資料對 LLMOPs SaaS 廠商的戰略影響分析
針對提供大型語言模型營運服務的 SaaS 廠商,合成資料的興起帶來了全新的競爭格局。讓我們從 SWOT 的角度來分析這個趨勢的影響。
優勢(Strengths)
LLMOPs SaaS 廠商在合成資料領域具備天然優勢。首先,他們已經擁有成熟的模型部署和管理基礎架構,可以快速整合合成資料產生能力。像是 Hugging Face、Weights & Biases 這類平台,可以輕鬆在現有服務中加入資料合成功能。
更重要的是,這些廠商掌握了大量客戶的模型使用資料,能夠了解哪些類型的合成資料最有價值。他們可以開發出針對特定產業需求的合成資料解決方案,例如為金融業客戶產生更多詐騙案例,或為醫療客戶產生罕見疾病的模擬資料。
此外,LLMOPs 廠商具備技術整合能力,可以將合成資料的產生、篩選、驗證整合成 End-to-end 服務,提供客戶完整的解決方案。
劣勢(Weaknesses)
合成資料技術的複雜性對 LLMOPs 廠商來說是個挑戰。如同文章中提到的,要避免「模型崩潰」和錯誤放大需要深厚的技術專業。許多 SaaS 廠商可能缺乏足夠的研發資源來開發高品質的合成資料產生技術。
品質控制也是一大難題。LLMOPs 廠商需要建立嚴格的驗證機制,確保合成資料不會降低客戶模型的效能。這需要大量的人力和計算資源投入。
另外,相比於 OpenAI、Anthropic 這些有深厚研究背景的公司,許多 LLMOPs SaaS 廠商在 AI 基礎研究方面相對薄弱,可能難以跟上技術發展的腳步。
機會(Opportunities)
合成資料為 LLMOPs 廠商開啟了新的營收模式。他們可以提供「資料即服務」(Data-as-a-Service),針對客戶的特定需求產生客製化的合成資料。這種服務的毛利率可能比傳統的模型託管服務更高。
對於資料稀缺的垂直領域,LLMOPs 廠商有機會成為解決方案提供者。像是法律、醫療、金融等領域,都存在高品質訓練資料不足的問題。廠商可以與領域專家合作,開發專業的合成資料產生器。
此外,合成資料也為中小型 AI 公司提供了競爭機會。他們不再需要像 Google、Meta 那樣的巨量真實資料,可以透過高品質的合成資料來訓練有競爭力的模型。
隱私保護也是一個重要機會。許多企業不願意分享真實資料來訓練模型,但願意使用基於真實資料產生的合成資料。這為 LLMOPs 廠商提供了進入敏感產業的機會。
威脅(Threats)
監管風險是最大的威脅之一。隨著 AI 監管日趨嚴格,合成資料的使用可能面臨更多限制。如果監管機構要求更高的透明度和可追溯性,可能會增加 LLMOPs 廠商的合規成本。
技術風險也不容忽視。如果廠商提供的合成資料存在偏差或錯誤,可能導致客戶的模型效能下降,甚至產生歧視性結果。這不僅會損害廠商的聲譽,還可能面臨法律責任。
競爭威脅來自多個方向。一方面,大型科技公司可能會將合成資料技術整合到自己的雲端服務中,擠壓獨立 LLMOPs 廠商的市場空間。另一方面,專業的合成資料公司如 Datology、DataCebo 可能會直接與客戶合作,繞過 LLMOPs 平台。
最後,客戶信任問題可能成為長期威脅。如果合成資料相關的事故頻發,客戶可能會重新回到使用真實資料,或是更加謹慎地選擇服務提供商。
═════✧═════
未來的挑戰與機會
現在我們站在一個關鍵的時間點。AI 模型的能力越來越強,但我們對合成資料的理解還很有限。就像 Baraniuk 教授說的,我們還不知道多少合成資料是安全的,多少會造成問題。
對台灣的科技產業來說,這既是挑戰也是機會。我們可以在這個新興領域建立自己的專業知識,發展更安全、更有效的資料策略。特別是對於正在發展 AI 服務的台灣 SaaS 公司,現在正是布局合成資料技術的關鍵時機。
重點是,我們不能只追求更大、更快的模型,而要追求更可靠、更值得信賴的 AI 系統。畢竟,這些工具最終是要為真實世界的人類服務的。
合成資料可能是解決資料稀缺問題的一部分答案,但絕對不是萬能藥。真正的挑戰在於如何在創新和安全之間找到平衡,確保 AI 的發展能真正造福人類社會。
對 LLMOPs SaaS 廠商而言,成功的關鍵將在於能否在技術創新、品質控制和客戶信任之間找到最佳平衡點,並在這個快速變化的市場中建立持久的競爭優勢。