昆侖萬維集團近日宣布了一項重要更新,其天工大模型4.0系列中的o1版和4o版已全面上線,覆蓋網(wǎng)頁端與App端,且面向公眾免費開放使用。
天工大模型4.0 o1版被標榜為國內(nèi)首款具備中文邏輯推理功能的o1模型。它不僅包含了開源的基礎模型,還推出了兩款性能更為出色的專用版本。這款模型在處理數(shù)學、代碼、邏輯推理、常識判斷以及倫理決策等復雜問題上,展現(xiàn)出了高超的能力。
與此同時,天工大模型4.0 4o版作為一款多模態(tài)模型,同樣引起了廣泛關(guān)注。昆侖萬維還推出了由該模型賦能的實時語音對話助手Skyo。Skyo以其出色的情感表達能力、快速響應以及多語言流暢切換的特點,為用戶提供了全新的智能對話體驗。
據(jù)官方介紹,天工大模型背后的Skywork o1采用了三階段的自研訓練方案。首先,通過自研的多智能體系統(tǒng),構(gòu)建高質(zhì)量的分步思考、反思和驗證數(shù)據(jù),以此對基座模型進行進一步的預訓練和監(jiān)督微調(diào)。這一過程中,大規(guī)模使用自蒸餾和拒絕采樣技術(shù),顯著提升了模型的訓練效率和邏輯推理能力。
其次,Skywork o1團隊研發(fā)了適配分步推理強化的Skywork o1 Process Reward Model(PRM)。實驗證明,該模型能夠有效捕捉復雜推理任務中間步驟和思考步驟對最終答案的影響,結(jié)合自研的分步推理強化算法,進一步加強了模型的推理和思考能力。
最后,Skywork o1還基于天工自研的Q*線上推理算法,配合模型在線思考,尋找最佳推理路徑。這一創(chuàng)新舉措不僅在全球范圍內(nèi)首次實現(xiàn)了Q*算法的公開,還大大提升了模型的線上推理能力。