近日,AI領(lǐng)域再次迎來了一場(chǎng)風(fēng)波,這次的主角是一個(gè)名為s1的人工智能推理模型。據(jù)媒體報(bào)道,斯坦福大學(xué)和華盛頓大學(xué)的研究人員,包括知名學(xué)者李飛飛,以驚人的低成本——不到50美元的云計(jì)算費(fèi)用,成功訓(xùn)練出了這一模型。該模型在數(shù)學(xué)和編碼能力測(cè)試中,展現(xiàn)出了與OpenAI的O1和DeepSeek的R1等尖端推理模型相匹敵的實(shí)力。
然而,這一消息在AI圈內(nèi)引發(fā)了廣泛的討論和質(zhì)疑。有觀點(diǎn)認(rèn)為,s1模型的成功并非完全從零開始,而是建立在其他強(qiáng)大模型的基礎(chǔ)之上。為了深入了解s1模型的真相,我們查閱了相關(guān)的研究論文。
論文摘要中明確提到,s1模型的訓(xùn)練采用了測(cè)試時(shí)間縮放技術(shù),這是一種利用額外測(cè)試時(shí)計(jì)算資源來提高性能的新方法。研究人員通過精心整理了一個(gè)包含1000個(gè)問題的小數(shù)據(jù)集s1K,并對(duì)一個(gè)現(xiàn)成的預(yù)訓(xùn)練模型進(jìn)行了有監(jiān)督微調(diào)。這個(gè)預(yù)訓(xùn)練模型就是阿里云的通義千問Qwen2.5-32B-Instruct。研究人員還開發(fā)了一種名為“預(yù)算強(qiáng)制”的方法,通過控制測(cè)試時(shí)的計(jì)算量來優(yōu)化模型性能。
具體來說,s1K數(shù)據(jù)集的1000個(gè)問題都配有從谷歌的Gemini Thinking Experimental提煉出的推理過程和答案。研究人員在這個(gè)小數(shù)據(jù)集上對(duì)Qwen2.5-32B-Instruct進(jìn)行了有監(jiān)督微調(diào),并在16個(gè)H100 GPU上僅需訓(xùn)練26分鐘。訓(xùn)練完成后,他們使用“預(yù)算強(qiáng)制”方法來控制模型在測(cè)試時(shí)花費(fèi)的計(jì)算量,從而提高了模型的推理性能。
論文還提到,s1模型在競(jìng)賽數(shù)學(xué)問題上的表現(xiàn)甚至超過了OpenAI的o1-preview模型,準(zhǔn)確率提高了27%。這一成果無疑展示了s1模型在推理能力上的強(qiáng)大實(shí)力。然而,值得注意的是,s1模型的成功并非完全依賴于其自身的創(chuàng)新,而是站在了其他強(qiáng)大模型的肩膀上。
關(guān)于“不到50美元”的成本,論文中并未直接提及。但據(jù)財(cái)聯(lián)社報(bào)道,這一費(fèi)用僅為云計(jì)算服務(wù)費(fèi)用,不包括服務(wù)器、顯卡等硬件投入費(fèi)用。這或許解釋了為何能夠以如此低的成本訓(xùn)練出如此強(qiáng)大的模型。
對(duì)于s1模型的這一成就,DeepSeek團(tuán)隊(duì)也給出了自己的看法。他們認(rèn)為,s1模型的成功可能由多種技術(shù)和管理因素驅(qū)動(dòng),包括模型架構(gòu)創(chuàng)新、訓(xùn)練策略突破以及硬件利用革新等。同時(shí),他們也提到了蒸餾監(jiān)督微調(diào)作為一種有效的模型訓(xùn)練方法,在模型壓縮、遷移學(xué)習(xí)和提升模型性能方面具有顯著優(yōu)勢(shì)。
事實(shí)上,蒸餾監(jiān)督微調(diào)在AI領(lǐng)域并不罕見。許多主流大模型都采用了這種方法來優(yōu)化性能。例如,DeepSeek-R1模型就使用了強(qiáng)化學(xué)習(xí)和大規(guī)模數(shù)據(jù)蒸餾技術(shù)。這也證明了蒸餾在模型訓(xùn)練中的重要性。
阿里云也證實(shí)了李飛飛團(tuán)隊(duì)以阿里通義千問Qwen2.5-32B-Instruct開源模型為底座,訓(xùn)練出了新模型s1-32B。這一成果不僅展示了s1模型在推理能力上的強(qiáng)大,也為未來的研究提供了一定的方向。
然而,盡管s1模型取得了顯著的成就,但我們也需要清醒地認(rèn)識(shí)到,蒸餾畢竟是建立在強(qiáng)大開源模型的基礎(chǔ)之上,并非小模型自身能力的體現(xiàn)。因此,“50美元復(fù)刻DeepSeek”這樣的標(biāo)題,或許有些過于夸張了。
盡管如此,s1模型的成功仍然為AI領(lǐng)域帶來了新的啟示。它告訴我們,通過合理利用現(xiàn)有資源和技術(shù),我們可以在低成本的情況下實(shí)現(xiàn)高性能的AI模型。這對(duì)于推動(dòng)AI技術(shù)的普及和應(yīng)用具有重要意義。
同時(shí),s1模型的成功也引發(fā)了人們對(duì)于AI未來發(fā)展的思考。隨著技術(shù)的不斷進(jìn)步和創(chuàng)新,或許會(huì)有更多基于算法創(chuàng)新的低成本模型出現(xiàn)。這將為AI領(lǐng)域帶來更多的可能性和機(jī)遇。
最后,我們也期待未來能夠有更多關(guān)于s1模型和其他AI技術(shù)的深入研究和實(shí)踐應(yīng)用,為人類社會(huì)的發(fā)展貢獻(xiàn)更多的智慧和力量。