在2024年末,AI領(lǐng)域迎來了一次新的震撼,DeepSeek公司推出的新一代MoE模型DeepSeek-V3,不僅在性能上達(dá)到了行業(yè)領(lǐng)先水平,更因其在成本控制上的卓越表現(xiàn)而引發(fā)了廣泛關(guān)注。
這家獨(dú)立于主流大模型公司之外的新興勢(shì)力,發(fā)布了DeepSeek-V3的首個(gè)版本,并大方地選擇了開源。這款模型擁有驚人的6710億參數(shù),其中370億為激活參數(shù),其預(yù)訓(xùn)練數(shù)據(jù)更是高達(dá)14.8萬億token。在知識(shí)類任務(wù)及代碼能力上,DeepSeek-V3與業(yè)界頂尖模型Claude-3.5-Sonnet-1022不相上下,甚至在數(shù)學(xué)能力上超越了多個(gè)知名開源與閉源模型。
然而,DeepSeek-V3真正引起轟動(dòng)的,并非僅僅是其卓越的性能,而是其低廉的訓(xùn)練成本。據(jù)DeepSeek公布的數(shù)據(jù),該模型的總訓(xùn)練成本僅為557.6萬美元,完整訓(xùn)練消耗了278.8萬個(gè)GPU小時(shí),僅為同等性能水平模型訓(xùn)練成本的十分之一。這一消息在國(guó)內(nèi)外迅速傳播,使得DeepSeek成為了業(yè)界的焦點(diǎn)。
回顧2024年初,DeepSeek就曾憑借“MoE架構(gòu)+MLA(Multi-head Latent Attention)技術(shù)”在降低大模型使用成本上取得了顯著成果,從而引發(fā)了API價(jià)格戰(zhàn)。如今,這一創(chuàng)新技術(shù)在DeepSeek-V3上得到了進(jìn)一步的鞏固和完善。
面對(duì)DeepSeek的強(qiáng)勢(shì)崛起,其他大模型公司不得不重新審視這位低調(diào)而穩(wěn)定的競(jìng)爭(zhēng)對(duì)手。DeepSeek的每一次進(jìn)步,都可能成為對(duì)其他公司的商業(yè)奇襲。
DeepSeek-V3的低成本訓(xùn)練模式,引發(fā)了業(yè)界對(duì)于AI模型開發(fā)成本控制的深入思考。尤其是在英偉達(dá)高端GPU顯卡在中國(guó)大陸受限的背景下,算力不足成為了國(guó)內(nèi)AI公司面臨的一大難題。而DeepSeek背后的開發(fā)公司幻方,憑借其雄厚的算力儲(chǔ)備,成為了少數(shù)能夠應(yīng)對(duì)這一挑戰(zhàn)的公司之一。
據(jù)悉,DeepSeek-V3的訓(xùn)練僅使用了2048張英偉達(dá)H800 GPU(H100 GPU的特供版),便完成了如此大規(guī)模的模型訓(xùn)練。相比之下,meta旗下的開源模型Llama-3.1則動(dòng)用了超過16000張英偉達(dá)H100 GPU,訓(xùn)練成本高達(dá)數(shù)億美元。這一對(duì)比,無疑彰顯了DeepSeek在成本控制上的卓越能力。
DeepSeek-V3的成功,不僅在于其低廉的訓(xùn)練成本,更在于其背后的一系列創(chuàng)新技術(shù)。模型壓縮、專家并行訓(xùn)練、FP8混合精度訓(xùn)練等技術(shù),共同構(gòu)成了DeepSeek-V3的低成本訓(xùn)練模式。這些技術(shù)的引入,不僅降低了模型開發(fā)的成本,也為行業(yè)探索低成本訓(xùn)練模式提供了新的思路。
然而,要復(fù)制DeepSeek的成功并不容易。FP8訓(xùn)練技術(shù)雖然具有顯著的成本優(yōu)勢(shì),但也帶來了模型精度不足和性能不穩(wěn)定的風(fēng)險(xiǎn)。這需要開發(fā)團(tuán)隊(duì)具備強(qiáng)大的調(diào)優(yōu)能力,以確保模型在降低成本的同時(shí),保持卓越的性能。
DeepSeek在人才儲(chǔ)備上也具有獨(dú)特優(yōu)勢(shì)。其核心團(tuán)隊(duì)由一批本土的頂尖高校畢業(yè)生和年輕人才組成,他們憑借深厚的專業(yè)知識(shí)和創(chuàng)新思維,為DeepSeek的發(fā)展提供了強(qiáng)大的動(dòng)力。這種人才儲(chǔ)備模式,不僅為DeepSeek的技術(shù)創(chuàng)新提供了有力支持,也為公司的未來發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。
隨著DeepSeek-V3的火爆,業(yè)界開始關(guān)注DeepSeek的商業(yè)觸角將向哪個(gè)領(lǐng)域延伸。目前,DeepSeek主要以開源模型API接口服務(wù)開發(fā)者和企業(yè),但在C端和B端應(yīng)用場(chǎng)景上尚未有明確動(dòng)作。然而,從幻方在招聘平臺(tái)上釋放的崗位信息來看,DeepSeek或許已經(jīng)在籌備自己的C端產(chǎn)品,并有望在數(shù)學(xué)和代碼能力上形成獨(dú)特優(yōu)勢(shì)。
無論如何,DeepSeek憑借其卓越的模型實(shí)力和成本優(yōu)勢(shì),已經(jīng)成為業(yè)界不可忽視的一股力量。對(duì)于其他大模型公司而言,DeepSeek的崛起無疑是一個(gè)巨大的挑戰(zhàn)和威脅。