近期,李飛飛研究團隊宣布了一項引人注目的成就:他們成功以極低的云計算成本——不到50美元,訓練出了一款名為s1的人工智能推理模型。該模型在數(shù)學解題與編程能力測試中,展現(xiàn)出了與業(yè)界頂尖模型,如OpenAI的o1和DeepSeek的R1相媲美的表現(xiàn)。
然而,這一成果很快引發(fā)了外界的質(zhì)疑。有網(wǎng)友指出,s1模型并非完全從零開始訓練,而是基于阿里云的通義千問(Qwen)模型進行了進一步開發(fā)。為了核實這一信息,新浪科技聯(lián)系了阿里云方面,并得到了確認。
阿里云方面詳細回應稱,s1模型是以阿里通義千問Qwen2.5-32B-Instruct開源模型為基礎(chǔ),通過16塊H100 GPU進行26分鐘的監(jiān)督微調(diào)后得到的。新模型s1-32B在數(shù)學及編碼能力測試中,取得了與o1和R1等尖端模型相當?shù)男Ч?,甚至在解決競賽數(shù)學問題上的表現(xiàn),還超出了o1-preview模型27個百分點。
據(jù)了解,s1團隊在創(chuàng)建該模型時,采用了“蒸餾”技術(shù)。這一技術(shù)的核心在于,通過訓練模型來學習另一個已有人工智能模型的答案,從而提取其推理能力。s1的論文指出,他們使用了一種稱為監(jiān)督微調(diào)(SFT)的方法,利用相對較小的數(shù)據(jù)集來實施蒸餾。在SFT過程中,人工智能模型被明確指示在數(shù)據(jù)集中模仿特定的行為模式。
值得注意的是,s1模型是基于阿里巴巴旗下中國人工智能實驗室Qwen提供的一款小型、現(xiàn)成的免費模型進行開發(fā)的。為了訓練s1,研究人員精心策劃了一個包含1000個問題及其答案的數(shù)據(jù)集,同時還參考了谷歌Gemini 2.0 Flash Thinking Experimental為每個答案提供的“思考”過程。
此次s1模型的成功,不僅展示了低成本、高效率訓練人工智能模型的潛力,也引發(fā)了業(yè)界對于模型微調(diào)與蒸餾技術(shù)的進一步關(guān)注。這一成果有望為人工智能領(lǐng)域的發(fā)展帶來新的啟示和動力。