在人工智能領(lǐng)域,一場關(guān)于深度推理模型的技術(shù)競賽正在悄然升溫。1月20日晚,兩家國內(nèi)AI企業(yè)——月之暗面(Kimi)和深度求索(DeepSeek)幾乎同時發(fā)布了最新研發(fā)的深度推理模型,均聲稱其性能可與OpenAI的“滿血版”o1相媲美,并公開了相關(guān)的技術(shù)報告。
月之暗面此次推出的k1.5多模態(tài)思考模型,標志著該公司在推理模型上的又一重要突破。據(jù)技術(shù)報告顯示,在short-CoT(短思維鏈)模式下,k1.5在數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力方面,超越了GPT-4o和Claude 3.5 Sonnet等模型。同時,在多個基準測試中,k1.5也超過了通義、DeepSeek、Llama等國內(nèi)外領(lǐng)先的開源模型。
而在long-CoT(長思維鏈)模式下,k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力更是達到了OpenAI o1正式版的水平,僅在編碼和視覺能力的部分測試中稍遜一籌。同一天,DeepSeek也發(fā)布了其開源推理模型DeepSeek-R1,該模型同樣在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上展現(xiàn)了與o1正式版相當(dāng)?shù)男阅堋?/p>
兩款模型的對標表現(xiàn)引發(fā)了業(yè)界的廣泛關(guān)注。搜狐科技在對比兩款模型的基準測試結(jié)果后發(fā)現(xiàn),在數(shù)學(xué)能力方面,Kimi的k1.5在AIME2024和MATH500兩個主流基準測試中略遜于DeepSeek-R1。同時,在代碼基準Codeforces以及多任務(wù)語言理解MMLU測試中,k1.5也未能超越DeepSeek-R1。然而,值得注意的是,DeepSeek-R1目前尚不具備視覺等多模態(tài)能力。
盡管在部分測試中稍遜一籌,但DeepSeek-R1的開源策略以及極低的價格卻贏得了不少開發(fā)者的青睞。DeepSeek宣布,其模型將完全開源,不限制商用,并允許用戶利用模型輸出進行蒸餾等方式訓(xùn)練其他模型。DeepSeek-R1的API定價也遠低于o1,為用戶提供了更為經(jīng)濟實惠的選擇。
DeepSeek-R1的開源策略不僅贏得了開發(fā)者的認可,也引發(fā)了業(yè)界的熱議。英偉達高級研究科學(xué)家Jim Fan對DeepSeek表示了贊賞,認為其是第一個展示強化學(xué)習(xí)飛輪效應(yīng)且持續(xù)增長的開源項目。Jim Fan還提到,DeepSeek的模型完全由強化學(xué)習(xí)驅(qū)動,沒有任何監(jiān)督微調(diào),這是論文中最重要的收獲之一。
事實上,無論是Kimi的k1.5還是DeepSeek的R1,其性能的提升都離不開強化學(xué)習(xí)的力量。兩款模型的技術(shù)論文均強調(diào)了強化學(xué)習(xí)在模型訓(xùn)練中的重要作用。通過強化學(xué)習(xí),模型能夠在沒有人工干預(yù)的情況下進行自我進化,從而不斷提升其推理能力。
隨著Kimi和DeepSeek的加入,國內(nèi)AI企業(yè)在深度推理模型領(lǐng)域的競爭也愈發(fā)激烈??拼笥嶏w、商湯、智譜、MiniMax、階躍星辰等多家AI企業(yè)也先后推出了強調(diào)推理性能的模型。與此同時,谷歌等國際巨頭也在緊追OpenAI,不斷推出新的大模型技術(shù)。可以預(yù)見的是,未來的AI領(lǐng)域?qū)⑹且粓鲫P(guān)于技術(shù)、創(chuàng)新和應(yīng)用的全面競爭。