在人工智能領域,DeepSeek v3的發(fā)布如同一股清流,其憑借后發(fā)優(yōu)勢,巧妙地規(guī)避了前輩們曾踏入的陷阱,實現(xiàn)了高效避坑。這一成果得益于它站在了巨人的肩膀上,通過更優(yōu)化的方式利用現(xiàn)有算力,力求實現(xiàn)收益的最大化。
有觀點認為,DeepSeek v3在訓練成本上的控制堪稱典范。據(jù)悉,o1的訓練成本遠高于GPT-4,而推測中o3的訓練成本更可能遠超o1。然而,DeepSeek v3在GPT-4o發(fā)布僅7個月后,便以十分之一的算力實現(xiàn)了近乎同等的性能,這無疑是訓練成本下降趨勢的一個有力證明。但與此同時,也存在對“訓練”概念理解的偏差。
幻方公司在其論文中明確指出,DeepSeek-V3的成本僅涵蓋了正式訓練階段,而不包括前期研究、算法優(yōu)化、數(shù)據(jù)準備等環(huán)節(jié)的投入。這意味著,在追求訓練成本降低的同時,我們不能忽視其他關鍵環(huán)節(jié)的投入。一位算法工程師形象地比喻道:“這就像學生在準備高考時,雖然最終考試可能只用了幾小時,但在此之前的學習、復習、模擬考試等投入都是不可或缺的。”
隨著數(shù)據(jù)量的爆炸式增長,合成數(shù)據(jù)逐漸成為突破數(shù)據(jù)瓶頸的重要途徑。未來的預訓練范式將更加注重數(shù)據(jù)質量,而非單純追求參數(shù)或數(shù)據(jù)總量的增加。算力,作為推動模型訓練的關鍵因素,其需求并未因算法優(yōu)化而減少,反而呈現(xiàn)出持續(xù)增長的趨勢。OpenAI、Anthropic等頂尖實驗室仍面臨算力短缺的困境,幻方也不例外。
從全局視角來看,訓練算力的總需求并未下降,反而隨著模型復雜度的提升而不斷增加。預訓練的經(jīng)濟效益雖然有所下降,但實驗室并未因此減少投入,而是將算力資源轉移到其他訓練環(huán)節(jié),如強化學習后訓練等。這種轉變并未減少算力的總體需求,而是推動了算力在不同訓練環(huán)節(jié)之間的優(yōu)化配置。
DeepSeek v3的成功,不僅在于其訓練成本的控制,更在于其對模型能力的提升?;梅皆贚LM路線上,將MoE技術發(fā)揮到了極致,同時也在積極探索r2/r3等更先進的模型。這些模型的訓練將消耗更多的算力,但也將為DeepSeek v4等后續(xù)模型的合成數(shù)據(jù)提供有力支持。預訓練、強化學習、測試時間計算等環(huán)節(jié)的優(yōu)化,形成了正反饋循環(huán),推動了模型能力的持續(xù)提升。
在推理方面,DeepSeek-V3及其輕量版V3-Lite的推出,為私有部署和自主微調提供了可能,為下游應用提供了廣闊的發(fā)展空間。隨著LLM應用生態(tài)的日益繁榮,未來一兩年內,我們有望見證更豐富的推理芯片產(chǎn)品和更廣泛的應用場景。
DeepSeek v3的發(fā)布不僅展示了其在訓練成本控制方面的卓越能力,更揭示了人工智能領域算力需求持續(xù)增長的趨勢。在追求高效算法和工程手段的同時,我們不能忽視其他關鍵環(huán)節(jié)的投入,以確保模型能力的持續(xù)提升。未來,隨著技術的不斷進步和應用場景的日益豐富,人工智能領域將迎來更加廣闊的發(fā)展前景。