靈初智能公司近期震撼發(fā)布了其創(chuàng)新之作——Psi R0,這是一款基于強(qiáng)化學(xué)習(xí)(RL)技術(shù)的端到端具身模型,專為雙靈巧手協(xié)同操作設(shè)計。Psi R0的出現(xiàn),標(biāo)志著在復(fù)雜任務(wù)執(zhí)行與智能體推理能力方面取得了重大突破。
這款模型最引人注目的特點之一,是其能夠?qū)⒍鄠€技能無縫串聯(lián),通過混訓(xùn)形成具有卓越推理能力的智能體,從而成功閉環(huán)完成長程靈巧操作任務(wù)。更令人驚嘆的是,Psi R0在跨物品、跨場景的應(yīng)用中,展現(xiàn)出了驚人的泛化能力。
以電商場景的實際應(yīng)用為例,Psi R0憑借其雙靈巧手的精湛技藝,能夠流暢地完成從抓取商品、掃碼記錄,到放置物品、塑料袋打結(jié)等一系列繁瑣操作。這一成就,不僅意味著Psi R0能夠在實際工作環(huán)境中替代一個完整的工位,更代表著業(yè)界在通過RL訓(xùn)練實現(xiàn)長程靈巧操作任務(wù)方面邁出了歷史性的一步。
靈初智能公司透露,Psi R0模型是通過海量的仿真數(shù)據(jù)訓(xùn)練而成,這些數(shù)據(jù)被用來塑造出具備雙手操作能力的智能體。公司還采用了獨特的雙向訓(xùn)練框架,將多個技能巧妙串聯(lián),使得Psi R0在開放環(huán)境中能夠率先完成長程任務(wù),并且具備強(qiáng)大的泛化能力和魯棒性。
在技能訓(xùn)練框架的設(shè)計上,靈初智能公司摒棄了傳統(tǒng)的獎勵函數(shù)設(shè)計,而是從物體時空軌跡中抽象出關(guān)鍵信息,構(gòu)建出通用目標(biāo)函數(shù)。這一創(chuàng)新,極大地解決了獎勵函數(shù)設(shè)計復(fù)雜且困難的問題。在后訓(xùn)練階段,公司還通過引入少量高質(zhì)量的真機(jī)數(shù)據(jù),對模型進(jìn)行了進(jìn)一步的對齊和優(yōu)化,從而顯著提升了長程任務(wù)的成功率。
雙向訓(xùn)練框架中的其他組成部分同樣功不可沒。它們能夠微調(diào)技能,提高技能串聯(lián)的成功率和泛化性,并賦予Psi R0模型自主切換技能的能力。這意味著,在面對操作失敗時,Psi R0能夠迅速調(diào)整策略,確保任務(wù)的高成功率執(zhí)行。這一特性,無疑為Psi R0在實際應(yīng)用中的穩(wěn)定性和可靠性提供了有力保障。