中國AI新創公司DeepSeek日前推出大型推理模型DeepSeek-R1以及開源模型DeepSeek-V3,標榜低價且性能直逼OpenAI的GPT-4旗鼓相當,引發美國科技界熱議。有部分討論聲浪指向DeepSeek將大大降低AI開發費用,對於這說法,政大應數系副教授蔡炎龍認為根本完全錯誤,因DeepSeek是在大量高性能GPU作為硬體支持的開源模型,如Llama為基礎,才有辦法做出。

蔡炎龍在臉書粉專「呆一布呀Diveai」指出,如果沒有基礎的開源模型,比如說 Llama 等,就沒辦法做出 DeepSeek R1。DeepSeek的成功,沒有pre-trained 模型是做不到的,因此,那些稱「DeepSeek大大降低AI開發費用」的說法完全錯誤。

現正最夯:管仁健觀點》鄭智化回歸祖國懷抱時為何要連滾帶爬?

蔡炎龍提到,DeepSeek 真正重要貢獻之一,在強化學習方面改了 OpenAI 的(Proximal Policy Optimization),推出GRPO(Gradient Policy Optimization)。

對於那些覺得輝達是不是完蛋的說法,蔡炎龍也吐槽,事實上NVIDIA GPU 可能會更難買,他表示,你可能不用也買不起訓練基礎模型的超多高級 GPU,就可以做出一些厲害的模型,DeepSeek 許多模型都開源,基本上方法也是公開的,可以用 DeepSeek 的方法,打造一個更符合自己需求的模型,也就是不要覺得只有有錢的超級大公司才能做 AI。

他提到,DeepSeek 使用的 GPU 數量和等級,對大多數的企業還是天價的。但讓大家有新的希望,那就是說不定買少一點的 GPU,不要訓練到 DeepSeek 的程度,但非常符合自己需求是可能的。看懂這件事的就會去買沒那麼多的 NVIDIA H100,再沒錢的就買消費級的 NVIDIA RTX 5090 等等

當前熱搜:不是西門町、中山!日本女高中生來台朝聖「這景點」 成畢業旅行熱門聖地

最後,蔡炎龍強調,DeepSeek 真正令人振奮的地方是,可以用類似的方法,用自己的電腦跑得動的小模型,打造一個完全符合自身的需求和效能的模型出來。DeepSeek最聰明的地方是,把重點放在「引導 LLM 回應」的部份。如果你可以寫出一個非常好的 prompt 引導,你的語言模型就可以回應得很好。DeepSeek 有許多有趣的地方,也讓大家更知道怎麼用 LLM 方式,這才是真正的重點。