【ITBEAR】智能駕駛技術(shù)正迎來新的浪潮,其中“端到端”技術(shù)成為引領(lǐng)者。然而,這一領(lǐng)域的技術(shù)迭代速度之快,令人目不暇接。就在眾多公司仍在努力研發(fā)端到端技術(shù)時(shí),一個(gè)全新的技術(shù)方向——VLA(Vision-Language-Action Model)已經(jīng)悄然興起。
VLA模型,作為一種融合了視覺、語言和動(dòng)作的多模態(tài)大模型,展現(xiàn)出了更高的場景推理與泛化能力。這一技術(shù)被視為端到端方案的升級(jí)版,備受智能駕駛行業(yè)的關(guān)注。
最初,VLA模型在機(jī)器人行業(yè)嶄露頭角。由谷歌DeepMind推出的這一模型,迅速引發(fā)了業(yè)界的廣泛關(guān)注。如今,這一技術(shù)概念正迅速滲透到智能駕駛領(lǐng)域。
谷歌旗下自動(dòng)駕駛公司W(wǎng)aymo近期推出的端到端自動(dòng)駕駛多模態(tài)模型EMMA,便被視為VLA模型架構(gòu)的典型代表。該模型不僅具備端到端的智能駕駛能力,還融入了多模態(tài)大模型,為智能駕駛帶來了更多可能性。
在智能駕駛行業(yè)的發(fā)展歷程中,基于規(guī)則算法的技術(shù)路線曾占據(jù)主導(dǎo)地位。然而,隨著特斯拉引領(lǐng)的端到端智能駕駛技術(shù)的興起,行業(yè)開始探索更擬人化、能應(yīng)對(duì)復(fù)雜交通場景的技術(shù)方案。
端到端技術(shù)配合大語言模型等外掛,曾一度提升了智能駕駛的能力上限。然而,VLA架構(gòu)的出現(xiàn),似乎預(yù)示著這一技術(shù)路線的終結(jié)。在VLA架構(gòu)下,端到端與多模態(tài)大模型的結(jié)合更為徹底,為智能駕駛帶來了更強(qiáng)大的環(huán)境理解能力。
對(duì)于智能駕駛行業(yè)而言,VLA模型的意義重大。它不僅讓端到端理解世界的能力更強(qiáng),還有望成為L2輔助駕駛到L4自動(dòng)駕駛飛躍的關(guān)鍵跳板。因此,不少車企和智駕公司已經(jīng)開始暗中發(fā)力,布局這一技術(shù)領(lǐng)域。
然而,VLA模型的上車難度并不小。它對(duì)技術(shù)和車端芯片算力都有著高強(qiáng)度要求。目前,能夠支持VLA模型上車交付的芯片尚未問世,預(yù)計(jì)將在未來幾年內(nèi)出現(xiàn)。
盡管面臨諸多挑戰(zhàn),但智能駕駛行業(yè)對(duì)于VLA模型的未來充滿信心。隨著技術(shù)的不斷進(jìn)步和芯片算力的提升,相信這一技術(shù)將在不久的將來實(shí)現(xiàn)量產(chǎn)落地,為智能駕駛帶來革命性的變革。