近日,銀河通用攜手北京智源人工智能研究院(BAAI)、北京大學(xué)及香港大學(xué)的科研團(tuán)隊(duì),共同發(fā)布了一款名為GraspVLA的突破性大模型。這款模型專注于具身智能領(lǐng)域,旨在通過人工智能技術(shù)的深度融入,使機(jī)器人等物理實(shí)體具備感知、學(xué)習(xí)和與環(huán)境動(dòng)態(tài)交互的能力。
GraspVLA大模型的構(gòu)建過程包括預(yù)訓(xùn)練和后訓(xùn)練兩個(gè)階段。其預(yù)訓(xùn)練階段完全基于海量的合成大數(shù)據(jù),數(shù)據(jù)量之巨前所未有,達(dá)到了十億幀“視覺-語言-動(dòng)作”對(duì)。這一龐大的數(shù)據(jù)集使模型掌握了泛化閉環(huán)抓取能力,奠定了堅(jiān)實(shí)的基礎(chǔ)。
經(jīng)過預(yù)訓(xùn)練的GraspVLA模型,能夠直接實(shí)現(xiàn)從模擬環(huán)境到現(xiàn)實(shí)環(huán)境的無縫遷移。在未見過的真實(shí)場(chǎng)景和物體上,模型無需任何先驗(yàn)知識(shí)即可進(jìn)行測(cè)試,并展現(xiàn)出強(qiáng)大的泛化能力,滿足了大多數(shù)產(chǎn)品的實(shí)際需求。對(duì)于特定場(chǎng)景下的特殊需求,后訓(xùn)練階段僅需少量樣本學(xué)習(xí),即可將基礎(chǔ)能力遷移至特定場(chǎng)景,既保持了高泛化性,又形成了符合產(chǎn)品需求的專業(yè)技能。
為了驗(yàn)證GraspVLA模型的泛化能力,官方提出了七大“金標(biāo)準(zhǔn)”,包括光照泛化、背景泛化、平面位置泛化、空間高度泛化、動(dòng)作策略泛化、動(dòng)態(tài)干擾泛化和物體類別泛化。這些標(biāo)準(zhǔn)全面覆蓋了機(jī)器人抓取任務(wù)中可能遇到的各種復(fù)雜情況。
在光照泛化測(cè)試中,模型在不同光照條件下均能保持穩(wěn)定的抓取性能。背景泛化測(cè)試中,模型在復(fù)雜多變的背景下依然能夠準(zhǔn)確識(shí)別目標(biāo)物體。平面位置泛化和空間高度泛化測(cè)試中,模型能夠靈活應(yīng)對(duì)不同位置和高度的目標(biāo)物體。動(dòng)作策略泛化測(cè)試中,模型展現(xiàn)了多樣化的抓取策略。動(dòng)態(tài)干擾泛化測(cè)試中,模型在動(dòng)態(tài)環(huán)境中依然能夠準(zhǔn)確抓取目標(biāo)。物體類別泛化測(cè)試中,模型對(duì)不同類別的物體均展現(xiàn)出了良好的抓取能力。
GraspVLA大模型的發(fā)布,標(biāo)志著具身智能領(lǐng)域取得了重大進(jìn)展。它不僅提升了機(jī)器人在復(fù)雜環(huán)境中的抓取能力,還為未來人工智能與物理實(shí)體的深度融合奠定了堅(jiān)實(shí)基礎(chǔ)。