
經營管理
對 DeepSeek 我的一些想法
過年期間 DeepSeek 的新聞幾乎霸佔了多數媒體的版面,直到現在,我個人的 Facebook 與常看的一些媒體、部落格也還經常看到 DeepSeek 的相關討論。 由於前段時間我人在韓國旅行,沒有太多的時間深入細節看 DeepSeek 的資料,尤其是有部分內容涉及到較深入的技術細節,沒看懂的狀況下實在也不好亂說。 回台灣這幾天終於有點時間可以好好看一下資料,以下我大概整理了一些觀點供大家參考。 DeepSeek 的技術創新 DeepSeek 揭露的資訊中提到 DeepSeek-V3 的訓練成本大約是 OpenAI 的 1/10 不到。主因是 DeepSeek 在技術架構中實現了以下創新。 1. 混合專家(Mixture-of-Experts, MoE)架構:DeepSeek-V3 擁有 6,710 億參數,但在實際運行中,每個輸入僅激活 370 億參數,這種選擇性激活的方式大大降低了計算成本,同時保持了高效能。 2. 無輔助損失的負載平衡策略(