ITBear旗下自媒體矩陣:

靈初智能發(fā)布Psi R0:雙靈巧手協(xié)同,機(jī)器人長程操作實現(xiàn)新突破!

   時間:2024-12-30 16:37:03 來源:ITBEAR編輯:快訊團(tuán)隊 發(fā)表評論無障礙通道

靈初智能公司近期震撼發(fā)布了其創(chuàng)新之作——Psi R0,這是一款基于強(qiáng)化學(xué)習(xí)(RL)技術(shù)的端到端具身模型,專為雙靈巧手協(xié)同操作設(shè)計。Psi R0的出現(xiàn),標(biāo)志著在復(fù)雜任務(wù)執(zhí)行與智能體推理能力方面取得了重大突破。

這款模型最引人注目的特點之一,是其能夠?qū)⒍鄠€技能無縫串聯(lián),通過混訓(xùn)形成具有卓越推理能力的智能體,從而成功閉環(huán)完成長程靈巧操作任務(wù)。更令人驚嘆的是,Psi R0在跨物品、跨場景的應(yīng)用中,展現(xiàn)出了驚人的泛化能力。

以電商場景的實際應(yīng)用為例,Psi R0憑借其雙靈巧手的精湛技藝,能夠流暢地完成從抓取商品、掃碼記錄,到放置物品、塑料袋打結(jié)等一系列繁瑣操作。這一成就,不僅意味著Psi R0能夠在實際工作環(huán)境中替代一個完整的工位,更代表著業(yè)界在通過RL訓(xùn)練實現(xiàn)長程靈巧操作任務(wù)方面邁出了歷史性的一步。

靈初智能公司透露,Psi R0模型是通過海量的仿真數(shù)據(jù)訓(xùn)練而成,這些數(shù)據(jù)被用來塑造出具備雙手操作能力的智能體。公司還采用了獨特的雙向訓(xùn)練框架,將多個技能巧妙串聯(lián),使得Psi R0在開放環(huán)境中能夠率先完成長程任務(wù),并且具備強(qiáng)大的泛化能力和魯棒性。

在技能訓(xùn)練框架的設(shè)計上,靈初智能公司摒棄了傳統(tǒng)的獎勵函數(shù)設(shè)計,而是從物體時空軌跡中抽象出關(guān)鍵信息,構(gòu)建出通用目標(biāo)函數(shù)。這一創(chuàng)新,極大地解決了獎勵函數(shù)設(shè)計復(fù)雜且困難的問題。在后訓(xùn)練階段,公司還通過引入少量高質(zhì)量的真機(jī)數(shù)據(jù),對模型進(jìn)行了進(jìn)一步的對齊和優(yōu)化,從而顯著提升了長程任務(wù)的成功率。

雙向訓(xùn)練框架中的其他組成部分同樣功不可沒。它們能夠微調(diào)技能,提高技能串聯(lián)的成功率和泛化性,并賦予Psi R0模型自主切換技能的能力。這意味著,在面對操作失敗時,Psi R0能夠迅速調(diào)整策略,確保任務(wù)的高成功率執(zhí)行。這一特性,無疑為Psi R0在實際應(yīng)用中的穩(wěn)定性和可靠性提供了有力保障。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version