ITBear旗下自媒體矩陣:

自動駕駛終極之戰(zhàn):世界模型能否超越語言模型?

   時間:2025-01-23 18:31:59 來源:ITBEAR編輯:快訊團(tuán)隊 發(fā)表評論無障礙通道

在自動駕駛技術(shù)的浩瀚星空中,各路大佬紛紛發(fā)聲,一個共識逐漸浮出水面:端到端結(jié)合大模型,或許正是自動駕駛技術(shù)發(fā)展的終極形態(tài)。然而,正如世間萬物千姿百態(tài),端到端與大模型的具體實現(xiàn)路徑同樣沒有固定答案。

技術(shù),如同流水與兵法,無常勢亦無常形。在真實世界的舞臺上,技術(shù)展現(xiàn)出高度的可重構(gòu)性,隨著時間流轉(zhuǎn)與新技術(shù)涌現(xiàn),它不斷進(jìn)化,持續(xù)改進(jìn)。自2022年底OpenAI推出ChatGPT大語言模型以來,生成式AI大模型逐漸分化為兩大流派:語言模型與世界模型。

語言模型在數(shù)字世界中深耕細(xì)作,從單一的文本模態(tài)擴(kuò)展到包含圖片、視頻的多模態(tài),實現(xiàn)了文生圖、看圖說話、圖生圖、文生視頻的能力。典型的代表如今年2月發(fā)布的Sora和4月發(fā)布的GPT4-o,它們在數(shù)字世界中游刃有余。

而世界模型則跨越數(shù)字與物理的界限,從一維的數(shù)字智能邁向三維的空間智能。據(jù)AI領(lǐng)域的傳奇人物、生于北京、成就于美國的李飛飛所言,空間智能意味著AI能在三維空間和時間中以三維方式感知、推理與行動,與現(xiàn)實世界無縫交互。

兩大流派的核心差異在于,大語言模型基于文本序列對世界進(jìn)行一維表示,即便多模態(tài)語言模型能夠理解圖像和視頻,也不過是將這些數(shù)據(jù)Token化,強(qiáng)行融入文本的一維序列中。而空間智能則將三維作為表達(dá)的核心,是對物理世界的深度理解與交互。

從自動駕駛大模型的賽道來看,小鵬汽車的全域大語言模型和理想汽車的視覺語言模型,均是在文本基礎(chǔ)上疊加了圖片和視頻模態(tài)的語言模型。而蔚來汽車與特斯拉的世界模型,則屬于空間智能陣營,它們旨在理解并掌握物理規(guī)律,與現(xiàn)實世界產(chǎn)生真實交互。

智能電動汽車行業(yè)的競爭,不僅僅是產(chǎn)品、技術(shù)與渠道的較量,營銷層面的明爭暗斗同樣激烈。在7月31日的智能駕駛系統(tǒng)發(fā)布會上,何小鵬對理想汽車數(shù)據(jù)為王的觀點提出質(zhì)疑,強(qiáng)調(diào)在新的端到端范式下,數(shù)據(jù)需要重新標(biāo)注,即便是自動標(biāo)注工具的幫助,也是一項繁重的任務(wù)。

在端到端與大模型的背景下,數(shù)據(jù)標(biāo)注的需求發(fā)生了新的變化。語言模型需要海量的數(shù)據(jù)標(biāo)注工作,以構(gòu)建預(yù)測與規(guī)劃數(shù)據(jù)集。而世界模型則采用無監(jiān)督學(xué)習(xí),無需數(shù)據(jù)標(biāo)注,能夠應(yīng)對更海量的數(shù)據(jù)驅(qū)動新范式,從此告別勞動密集型的人工智能。

語言模型與世界模型,如同東北大哥與湖南老表,前者先聲奪人,給出對當(dāng)前駕駛場景的理解,但不直接輸出決策結(jié)果;后者則干脆利落,直接給出車輛的行駛軌跡。理想汽車的VLM給出的是中間層面的建議,而蔚來汽車的世界模型則推演萬千平行世界,選擇最優(yōu)解,生成行駛軌跡,直接控制車輛的駕駛行為。

世界模型的兩大優(yōu)勢顯而易見:一是直接給出行駛軌跡,二是通過無監(jiān)督學(xué)習(xí)訓(xùn)練出對駕駛場景的深度理解能力,實現(xiàn)從感知到認(rèn)知的躍升。相較于BEV+OCC的感知能力,世界模型能夠更細(xì)致地理解場景,包括光照條件、天氣情況等關(guān)鍵要素,為安全、舒適、高效的完全自動駕駛提供有力支撐。

隨著算力的不斷提升,采用不同技術(shù)路線的車企或?qū)⒅鸩节呁?。理想和小鵬從語言模型過渡到世界模型,或許只是一個時間問題。在這場自動駕駛技術(shù)的變革中,誰將最終問鼎巔峰,讓我們拭目以待。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version