ITBear旗下自媒體矩陣:

靈初智能Psi R0:強(qiáng)化學(xué)習(xí)賦能,雙靈巧手挑戰(zhàn)長程任務(wù)

   時間:2024-12-30 15:37:23 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評論無障礙通道

靈初智能在近期正式揭曉了其最新研發(fā)成果——基于強(qiáng)化學(xué)習(xí)(RL)技術(shù)的端到端具身模型Psi R0。這款模型在雙靈巧手的協(xié)同操作上實(shí)現(xiàn)了突破,能夠串聯(lián)并混合訓(xùn)練多種技能,生成具備邏輯推理能力的智能體,從而成功完成一系列復(fù)雜的、長距離的靈巧操作任務(wù)。

Psi R0不僅具備出色的操作技能,還展現(xiàn)出了跨物品和跨場景的泛化能力。在電商場景中,商品打包是一個典型的長流程任務(wù),需要對成千上萬件商品進(jìn)行抓取、掃碼、放置以及塑料袋打結(jié)等一系列操作。令人驚嘆的是,Psi R0憑借其雙靈巧手,能夠流暢地完成這一系列繁瑣的步驟,據(jù)官方介紹,這一表現(xiàn)足以替代一個完整的工作崗位。

靈初智能透露,Psi R0模型利用了海量的仿真數(shù)據(jù)進(jìn)行訓(xùn)練,通過雙向訓(xùn)練框架將多種技能串聯(lián)起來,率先在開放環(huán)境中完成了長程任務(wù)。該模型展現(xiàn)出了強(qiáng)大的泛化能力和魯棒性,能夠在不同的環(huán)境和條件下穩(wěn)定工作。

為了實(shí)現(xiàn)這一目標(biāo),靈初智能開發(fā)了一種獨(dú)特的技能訓(xùn)練框架。該框架從物體的時空軌跡中提取關(guān)鍵信息,構(gòu)建出通用的目標(biāo)函數(shù),從而解決了獎勵函數(shù)設(shè)計(jì)困難的問題。在后訓(xùn)練階段,通過引入少量的高質(zhì)量真實(shí)機(jī)器數(shù)據(jù),進(jìn)一步提升了長程任務(wù)的成功率。

雙向訓(xùn)練框架中的轉(zhuǎn)移可行性函數(shù)在技能串聯(lián)過程中起到了至關(guān)重要的作用。該函數(shù)能夠微調(diào)技能,提高串聯(lián)的成功率和泛化性,同時賦予模型自主切換技能的能力。當(dāng)遇到操作失敗時,Psi R0能夠迅速調(diào)整策略,確保任務(wù)的高成功率。

這一創(chuàng)新不僅展示了靈初智能在強(qiáng)化學(xué)習(xí)領(lǐng)域的技術(shù)實(shí)力,也為機(jī)器人技術(shù)的發(fā)展開辟了新的方向。Psi R0的成功應(yīng)用,預(yù)示著未來機(jī)器人在長程靈巧操作任務(wù)中將發(fā)揮更加重要的作用,為工業(yè)自動化和智能化進(jìn)程注入新的動力。

Psi R0的出色表現(xiàn)也離不開其背后的算法和數(shù)據(jù)處理技術(shù)的支持。靈初智能在算法優(yōu)化和數(shù)據(jù)處理方面投入了大量的研發(fā)資源,確保了Psi R0能夠在各種復(fù)雜環(huán)境中穩(wěn)定工作,并展現(xiàn)出卓越的性能。

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version