這是一篇由美國政府 National Design Studio 發布的數位轉型案例分享。兩位來自 Airbnb 和 AI 新創的工程師,在六個月內將聯邦退休申請流程從「紙本+地下礦坑儲存」轉變為線上即時處理系統。核心洞見不在於 LLM/ML 技術本身,而在於政府機構數位轉型的巨大市場機會、legacy data 整合的價值,以及低代碼工具(PowerApps)在複雜場景的失敗案例。對 LLMOps/MLOps SaaS 創辦人而言,這呈現出了一個被忽視的垂直市場:政府機構的 AI/ML 現代化需求。
內容摘要
核心主題
兩位矽谷工程師(Yat Choi 來自 Airbnb、Dennis Li 來自 AI 新創)加入美國聯邦政府,在六個月內重建了 OPM(Office of Personnel Management)的退休申請系統,將原本需要六個月以上的紙本流程轉變為可即時處理的數位系統。
作者與可信度評估
項目
評估
作者背景
Yat Choi(10 年 Airbnb 經驗)、Dennis Li(AI 新創背景)
發布單位
National Design Studio(美國政府機構,依據行政命令成立)
可信度
高 – 政府官方發布、引用 Washington Post 調查報導、有具體數據
發布時機
2025/12/26,系統上線後約 6 個月,屬於成果彙報
關鍵數字
指標
數值
來源可信度
舊系統處理時間
6+ 個月
⭐⭐⭐⭐⭐ 有 Washington Post 佐證
過去失敗投資
$130M+
⭐⭐⭐⭐ 引用 OPM 官方資料
地下儲存紙本
4 億頁
⭐⭐⭐⭐⭐ 有照片佐證
目標年處理量
100,000 件
⭐⭐⭐⭐ 官方目標
聯邦員工總數
230 萬人
⭐⭐⭐⭐⭐ 公開資料
開發團隊規模
2 人
⭐⭐⭐⭐ 自述
開發時程
數週(rebuild)
⭐⭐⭐⭐ 自述
技術洞見
技術堆疊
架構設計模式分析
面向
實作方式
整體架構
Modern Web App + Async Workers
擴展性
Azure Functions 處理長時間任務
API 設計
未明確提及,推測為 REST
自建元件
RBAC 權限系統、Feature Flagging
LLMOps 元件分析
現有實作(非 AI/ML 為主)
元件
狀態
說明
資料整合
✅ 已完成
整合多個 legacy data warehouses
即時預填
✅ 已完成
從資料倉儲預填申請表單
年金計算器
✅ 已完成
即時計算退休金額
批次處理
✅ 已完成
Azure Functions 處理
未來規劃(提及 AI)
“sophisticated AI that flags potential issues early”
這是文中唯一明確提到 AI 的地方,暗示未來會導入:
異常檢測:提早標記可能有問題的案件
風險評估:識別需要人工審核的複雜案件
文件驗證:自動比對資料一致性
技術創新評估
面向
評估
創新類型
工程整合層面 > 理論突破
核心突破
發現並整合被遺忘的 2007 年資料倉儲
可複製性
高 – 方法論通用,但需 domain expertise
前提條件
需要存取 legacy 系統、政府內部信任關係
技術限制與 Trade-offs
限制
說明
第三方工具受限
政府環境難以引入外部 SaaS,需自建許多元件
複雜案件未解
“Instant” 僅適用於非複雜案件
資料品質依賴
依賴各機構持續正確上報資料
單點失敗風險
僅 2 人團隊,知識集中
Low-Code 失敗案例分析(重要洞見)
文中明確指出 Microsoft PowerApps 是失敗的技術選擇:
“OPM had bet this modernization effort on a flawed technical direction… building all of this on Microsoft PowerApps, a ‘no-code’ tool meant for building simple web apps, not a professional development platform.”
失敗原因:
開發者不熟悉,無法應用傳統開發技能
難以快速迭代
無法處理複雜業務邏輯
「像用樂高積木蓋 100 層大樓」
對 LLMOps 的啟示:過度簡化的 no-code/low-code 工具在複雜 ML 場景同樣會失敗。
產品/市場機會
痛點分析
顯性痛點(文中明確提到)
痛點
影響對象
嚴重度
6 個月處理等待
退休人員
🔴 極高
紙本流程效率低
OPM 員工
🔴 極高
Legacy 系統難以修改
IT 團隊
🟠 高
數據孤島、系統不互通
各機構
🟠 高
第三方工具採購困難
技術團隊
🟡 中
隱性痛點(推測)
痛點
推測依據
缺乏 ML/AI 專業能力
需外部工程師協助、未來 AI 需求
模型部署缺乏工具
自建 feature flagging,暗示缺乏標準工具
資料治理不成熟
2007 年資料倉儲「被遺忘」
合規審計需求高
政府環境,但未見相關工具
目標市場區隔
使用者 Persona
Persona
描述
規模估計
聯邦政府 IT 團隊
需現代化 legacy 系統
數百個機構
州/地方政府 IT
類似痛點,規模較小
數千個單位
GovTech 承包商
政府專案外包商
數百家公司
國防/情報機構
高安全需求的 ML 場景
高價值客戶
買家 vs 使用者分析
角色
說明
使用者
IT 工程師、資料分析師、業務單位
預算決策者
CIO、CTO、機構主管
影響者
政策制定者、合規官員
採購流程
複雜,通常需要 FedRAMP 認證
產品機會對應
功能層級機會
機會
開發複雜度
市場需求
優先級
GovCloud ML Observability
中
高
🎯
Legacy Data Discovery Tool
中
高
🎯
Document AI for Forms
中
高
🎯
Compliance-Ready Model Registry
高
中
📈
Audit Trail for AI Decisions
中
高
🎯
Self-hosted LLMOps Platform
高
中
📈
產品層級機會
產品概念
形態
定價模式
GovMLOps – 政府專用 ML 平台
Self-hosted / GovCloud SaaS
年度授權
LegacyBridge AI – Legacy 系統 AI 整合
Professional Services + Platform
專案制 + 訂閱
FormGenius – 政府表單自動化
SaaS API
用量計費
ComplianceML – 合規 ML 工具鏈
SaaS
席次計費
市場規模估算
市場層級
估算
假設基礎
TAM
$15-20B
全球政府 IT 現代化市場(Gartner 數據)
SAM
$3-5B
美國聯邦 + 州政府 AI/ML 相關支出
SOM
$50-100M
前 5 年可觸及的利基市場
進入市場策略初探
策略
建議
GTM Motion
Sales-led + Community-led 混合
早期客戶來源
FedRAMP 認證後的小型機構、創新辦公室
驗證方法
與 GSA、USDS、18F 等數位轉型單位合作試點
關鍵認證
FedRAMP (必須)、StateRAMP、SOC2
競爭態勢
直接競爭者
競爭者
定位
政府市場滲透
優勢
劣勢
Palantir
政府數據平台
⭐⭐⭐⭐⭐
深耕政府、大單經驗
昂貴、複雜
Databricks (GovCloud)
數據 + ML 平台
⭐⭐⭐⭐
技術領先、FedRAMP
非政府專用
AWS GovCloud SageMaker
ML 平台
⭐⭐⭐⭐⭐
基礎設施整合
缺乏專業服務
Azure Gov ML
ML 平台
⭐⭐⭐⭐⭐
政府生態深厚
PowerApps 負面案例
Google Vertex AI (Gov)
ML 平台
⭐⭐⭐
技術先進
政府市場較弱
間接競爭者
類型
競爭者
說明
傳統 SI
Booz Allen, Accenture Federal
服務為主,缺乏產品
GovTech 新創
Anduril, Shield AI
專注國防,非通用
Open Source
MLflow, Kubeflow
需自建維護
內部自建
各機構 IT 團隊
如本案例
競爭定位矩陣
護城河分析
護城河類型
本案例呈現出的機會
認證障礙
FedRAMP 認證耗時 18-24 個月,形成進入壁壘
Domain Knowledge
政府採購流程、合規要求需深度理解
Switching Cost
政府系統一旦導入,更換成本極高
Data Network Effect
跨機構資料整合可形成網路效應
市場動態預測
預測
時程
信心度
更多 GovTech 現代化專案
1-2 年
⭐⭐⭐⭐⭐
AI/ML 在政府應用加速
2-3 年
⭐⭐⭐⭐
大型 MLOps 廠商推出 Gov 方案
1-2 年
⭐⭐⭐⭐
政府 AI 監管框架成熟
2-4 年
⭐⭐⭐
行動計畫
🎯 Quick Wins(本週)
[ ] 追蹤關鍵人物:Follow Yat Choi (@yatshitcray)、Dennis Li、National Design Studio (@ndstudio)
“The same systematic problems we encountered are not unique to retirement, and our approach to them can hopefully be applied to streamlining other outdated areas where citizens interface with their government.”
“The pattern is consistent – the data to streamline federal services often already exists, it’s just sitting in disconnected systems that don’t talk to each other.”
“sophisticated AI that flags potential issues early, these tools will further help to reduce processing time”
Hi, I’m LIU SHIH YEN (Sean) — a Taipei-based AI expert and technical founder building an LLMOps SaaS that turns generative AI from demos into dependable, cost-aware products. My lane: end-to-end MLOps for LLMs — data and feature pipelines, prompt/version control, automated evals, RAG/agents, safety guardrails, observability, and GPU/infra orchestration. I obsess over shipping: latency, reliability, cost per token, and human-in-the-loop feedback that actually improves models. I’ve led teams deploying production LLM systems for real users, designing eval harnesses, tracing prompt chains, and rolling out blue/green releases with tight monitoring. If you want a founder who lives at the intersection of GenAI research and gritty platform engineering, that’s me — I build the rails so your models can run fast, safely, and at scale.