【ITBEAR】自動(dòng)駕駛領(lǐng)域的佼佼者Waymo近日透露,其正在研發(fā)一種全新的訓(xùn)練模型,該模型基于谷歌的多模態(tài)大語言模型Gemini。這一動(dòng)態(tài)標(biāo)志著Waymo在自動(dòng)駕駛技術(shù)上的又一次重大突破,旨在為其機(jī)器人出租車提供更強(qiáng)大的智能決策能力。
Waymo發(fā)布的研究論文中詳細(xì)介紹了這一名為“端到端多模態(tài)自動(dòng)駕駛模型”(EMMA)的新技術(shù)。與傳統(tǒng)的自動(dòng)駕駛系統(tǒng)相比,EMMA模型能夠更有效地處理傳感器數(shù)據(jù),并生成車輛未來的行駛軌跡,從而協(xié)助無人駕駛車輛做出更為精準(zhǔn)的決策。
值得注意的是,這是自動(dòng)駕駛領(lǐng)域首次嘗試將多模態(tài)大語言模型應(yīng)用于實(shí)際業(yè)務(wù)中。此舉不僅展示了Waymo在技術(shù)創(chuàng)新上的領(lǐng)先地位,也預(yù)示著多模態(tài)大語言模型在自動(dòng)駕駛領(lǐng)域的廣闊應(yīng)用前景。
傳統(tǒng)的自動(dòng)駕駛系統(tǒng)往往采用模塊化的設(shè)計(jì)方式,這種方式雖然在過去取得了一定的成效,但在面對(duì)復(fù)雜多變的環(huán)境時(shí),其可擴(kuò)展性和適應(yīng)性均顯得捉襟見肘。而像Gemini這樣的多模態(tài)大語言模型則具有更強(qiáng)的通用性和推理能力,能夠有效解決這些問題。
據(jù)Waymo介紹,EMMA模型在復(fù)雜環(huán)境下的表現(xiàn)尤為出色。例如,在遇到動(dòng)物穿越道路或道路施工時(shí),該模型能夠幫助無人駕駛汽車迅速找到最佳的行駛路徑。
與此同時(shí),特斯拉等其他自動(dòng)駕駛領(lǐng)域的巨頭也在積極探索端到端模型的應(yīng)用。然而,Waymo憑借其強(qiáng)大的技術(shù)實(shí)力和豐富的研發(fā)經(jīng)驗(yàn),在這一領(lǐng)域顯然已經(jīng)走在了前列。
當(dāng)然,EMMA模型也并非完美無缺。Waymo坦言,在將該模型正式投入應(yīng)用之前,仍需要進(jìn)行大量的研究工作。例如,如何降低模型處理3D傳感器輸入時(shí)的計(jì)算開銷,以及如何提高模型處理圖像幀的效率等,都是未來需要重點(diǎn)攻克的難題。
多模態(tài)大語言模型在自動(dòng)駕駛領(lǐng)域的應(yīng)用還面臨著另一大挑戰(zhàn),即如何確保模型的輸出結(jié)果的準(zhǔn)確性。由于無人駕駛汽車的容錯(cuò)率極低,因此任何微小的誤差都可能導(dǎo)致嚴(yán)重的后果。這就要求在將這些模型大規(guī)模應(yīng)用于實(shí)際場(chǎng)景之前,必須進(jìn)行更為深入和細(xì)致的研究。