Sean Liu | CEO

Take a break and read all about it

將語料作向量化時,高維度?還是低維度?最適`Embedding`維度是多少?

做RAG的時候總會遇到一個頭痛問題:向量維度要設多少?現在主流都衝到4,096維了,像阿里雲Qwen3、Salesforce SFR都是這個規格,感覺不跟上就落伍。但說實話,維度不是越高越好啦!太低會壓縮語義、太高又會成本爆炸還可能過擬合。根據JL定理和實務經驗,甜蜜點大概在2K-4K之間,但還是要看你的資料量和硬體預算。這篇文章就是要告訴你怎麼在資訊保真、運算成本和過擬合風險之間找到最划算的平衡點,而不是盲目追高維度。

Read More »

DataRecce:LLMOps 成功的隱藏基石

DataRecce 正在重新定義資料工程的遊戲規則。想像一下,以前你的 data pipeline出問題時,就像房子失火一樣,只能等冒煙了才知道;現在 DataRecce 讓你在 Pull Request 階段就能預先檢查資料變更,就像給資料管道裝了煙霧偵測器。這家 2023 年成立的公司,由 CL Kao 創辦,已獲得 400 萬美元資金,採用開源加 SaaS 的策略快速擴張。他們的 Recce 工具專門解決 dbt 使用者的痛點,聲稱能縮短 90% 的審查時間。在 AI

Read More »

人工智慧改變工作型態:UBI 是重構收入分配與社會安全網的一條道路嗎?

歷史與民意何時轉折是很無法預測的,或許現階段我們該聚焦的問題不只是是否需要 UBI,更是如何在理想與現實間找到平衡。答案需要透過持續的實證研究、開放的公共辯論、審慎的政策實驗來逐步探索。無論最終形式如何,這場關於基本收入的討論,已經在推動我們重新思考 21世紀社會契約的本質。

Read More »

Palantir HyperAuto:重新定義企業資料整合的遊戲規則

HyperAuto 不是什麼神奇的新概念(其實很神奇),就是把傳統ETL該做但做不好的事情做到位。傳統ETL花幾個月才能整合的系統,HyperAuto幾天就搞定,而且還能把資料寫回原始系統,讓你的資料真正活起來。最重要的是,工程師不用再寫一堆重複的程式碼,可以專心做更有價值的事。現在企業競爭這麼激烈,誰能更快把資料變成決策,誰就贏了。如果你還在用傳統ETL慢慢磨,真的該考慮升級了。

Read More »

Palantir Foundry 的「Ontology」模組(微)深度研究

Palantir Foundry 的「Ontology」模組,就像一張全公司共同的互動白板,把人、機台、訂單等關鍵資訊全都串在一起,不只查資料,還能直接操作和同步更新。它結合主資料管理、知識圖譜、數位孿生,把過去分散在 ERP、MES、CRM 等系統裡的資訊一次整合,讓企業能用統一語言快速查詢、決策和追蹤。

Read More »

Google AI Edge (微)深度研究報告

Google AI Edge 是 Google 面向邊緣運算領域推出的 AI 解決方案集合,包含專用的 Edge TPU 硬體以及軟體開發工具鏈。它的架構透過將訓練於雲端的模型部署到端裝置,讓裝置本地即可執行高效的機器學習推論。核心硬體 Edge TPU 以4TOPS@2W的強勁表現提供了小體積低功耗的算力。整體平台涵蓋 Coral 系列開發板和加速器等硬體,以及 TensorFlow Lite (LiteRT)、MediaPipe、AI Edge SDK 等軟體,支援開發者將電腦視覺、語音、甚至大型語言模型等 AI 能力嵌入行動或物聯網裝置中。

Read More »

AI 產業的資料危機與人工合成資料(Synthetic data)的未來

AI 公司宣稱快要用完訓練資料了,解決方案是什麼?合成資料——由 AI 自己產生的資料。但這真的安全嗎?從自駕車到金融詐騙偵測,我們深入分析合成資料的機會與風險,並完整解析這個趨勢對 LLMOPs SaaS 廠商的戰略影響。包含完整 SWOT 分析,探討台灣科技產業如何在這波 AI 資料革命中找到新的競爭優勢。模型崩潰、錯誤放大、監管挑戰——了解合成資料背後你必須知道的關鍵風險與商機。

Read More »