ITBear旗下自媒體矩陣:

上海AI Lab發(fā)布Llama版o1大模型:強(qiáng)化學(xué)習(xí)代碼已開(kāi)源,探索數(shù)學(xué)奧賽新高度

   時(shí)間:2024-11-05 13:43:02 來(lái)源:ITBEAR作者:唐云澤編輯:瑞雪 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR】近日,上海AI Lab團(tuán)隊(duì)發(fā)布了一項(xiàng)引人注目的開(kāi)源項(xiàng)目——LLaMA版o1,該項(xiàng)目在人工智能領(lǐng)域引起了廣泛關(guān)注。據(jù)悉,這一項(xiàng)目是對(duì)OpenAI的o1推理大模型進(jìn)行復(fù)刻的成果,展示了開(kāi)源界在AI方面的最新進(jìn)展。

據(jù)了解,LLaMA版o1項(xiàng)目采用了多種先進(jìn)技術(shù),包括蒙特卡洛樹搜索、Self-Play強(qiáng)化學(xué)習(xí)、PPO算法,以及借鑒自AlphaGo Zero的雙重策略范式。這些技術(shù)的運(yùn)用使得模型在數(shù)學(xué)能力上有了顯著提升,尤其是在解決復(fù)雜的數(shù)學(xué)問(wèn)題時(shí)表現(xiàn)出色。

團(tuán)隊(duì)在o1發(fā)布之前就開(kāi)始探索蒙特卡洛樹搜索在提升大模型數(shù)學(xué)能力方面的應(yīng)用,并積累了一定的經(jīng)驗(yàn)。此次開(kāi)源的LLaMA版o1項(xiàng)目正是基于這些探索的成果,進(jìn)一步推動(dòng)了AI領(lǐng)域的發(fā)展。

LLaMA版o1項(xiàng)目不僅在技術(shù)上有所突破,還在開(kāi)發(fā)者社區(qū)中引發(fā)了熱烈討論。許多開(kāi)發(fā)者對(duì)項(xiàng)目的開(kāi)源表示贊賞,并期待能夠在其基礎(chǔ)上進(jìn)行更多的創(chuàng)新和應(yīng)用。

上海AI Lab團(tuán)隊(duì)還專注于數(shù)學(xué)奧賽問(wèn)題的研究,致力于將LLaMA版o1打造成一個(gè)在數(shù)學(xué)領(lǐng)域具有強(qiáng)大推理能力的模型。通過(guò)采用成對(duì)優(yōu)化等技術(shù)手段,團(tuán)隊(duì)成功提高了模型在解決數(shù)學(xué)奧賽問(wèn)題時(shí)的準(zhǔn)確率。

在最新的測(cè)試中,優(yōu)化后的LLaMA版o1模型在AIME2024基準(zhǔn)測(cè)試的30道題中做對(duì)了8道,相較于原版LLaMA-3.1-8B-Instruct的2道正確答案,有了顯著提升。這一成績(jī)甚至超過(guò)了除o1-preview和o1-mini之外的其他商業(yè)閉源方案。

團(tuán)隊(duì)宣布,在復(fù)刻OpenAI o1的過(guò)程中取得了重大進(jìn)展,模型已經(jīng)能夠在與搜索樹的交互中獲得高級(jí)思維能力,而無(wú)需依賴人工標(biāo)注。這一突破性的成果為AI領(lǐng)域的發(fā)展注入了新的活力。

目前,LLaMA版o1項(xiàng)目已經(jīng)開(kāi)源了預(yù)訓(xùn)練數(shù)據(jù)集、預(yù)訓(xùn)練模型以及強(qiáng)化學(xué)習(xí)訓(xùn)練代碼。其中,OpenLongCoT-Pretrain數(shù)據(jù)集包含了大量長(zhǎng)思維鏈數(shù)據(jù),為模型的進(jìn)一步訓(xùn)練提供了豐富的資源。同時(shí),團(tuán)隊(duì)還推薦使用LLaMaFactory進(jìn)行預(yù)訓(xùn)練代碼的替代。

盡管項(xiàng)目名為L(zhǎng)LaMA-O1,但團(tuán)隊(duì)提供的預(yù)訓(xùn)練模型卻是基于谷歌的Gemma 2。在此基礎(chǔ)上,開(kāi)發(fā)者可以繼續(xù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,通過(guò)蒙特卡洛樹搜索等技術(shù)手段不斷提升模型的性能。

總的來(lái)說(shuō),LLaMA版o1項(xiàng)目的開(kāi)源為AI領(lǐng)域帶來(lái)了新的機(jī)遇和挑戰(zhàn)。上海AI Lab團(tuán)隊(duì)的這一成果展示了開(kāi)源界在推動(dòng)AI技術(shù)發(fā)展方面的強(qiáng)大實(shí)力和無(wú)限潛力。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容