近期,科技界迎來(lái)了一波關(guān)于世界模型的創(chuàng)新浪潮,其中,由人工智能領(lǐng)域的領(lǐng)軍人物李飛飛創(chuàng)立的World Labs公司率先發(fā)力,于12月初推出了其首個(gè)項(xiàng)目——大世界模型(Large World Model,簡(jiǎn)稱LWM)。該項(xiàng)目通過(guò)一張圖片即可將二維場(chǎng)景轉(zhuǎn)化為三維空間,用戶能在其中自由移動(dòng)并切換視角,且生成的場(chǎng)景嚴(yán)格遵循空間原理和物理定律。
李飛飛透露,大世界模型僅是Worlds Labs邁出的第一步,公司未來(lái)的愿景是將這項(xiàng)技術(shù)融入增強(qiáng)現(xiàn)實(shí)(AR)、機(jī)器人乃至自動(dòng)駕駛領(lǐng)域,進(jìn)一步拓寬其應(yīng)用場(chǎng)景。
緊接著,Google DeepMind也不甘落后,推出了Genie2,這款工具能夠根據(jù)單張圖片生成無(wú)限的3D世界,并應(yīng)用于AI游戲及智能體訓(xùn)練中。這意味著Genie2不僅能夠模擬虛擬世界,還具備物體交互、復(fù)雜角色動(dòng)畫(huà)、物理模擬以及預(yù)測(cè)其他智能體行為的能力。
隨后,在OpenAI發(fā)布會(huì)直播的第三天,此前在理解和模擬現(xiàn)實(shí)領(lǐng)域備受矚目的Sora也推出了其升級(jí)版Sora Turbo。Sora Turbo在模擬運(yùn)動(dòng)中的物理世界時(shí),顯著增強(qiáng)了其可編輯性,為構(gòu)建與物理世界互動(dòng)的模型邁出了重要一步。
世界模型的概念自2018年起逐漸受到廣泛關(guān)注??茖W(xué)家指出,人類通過(guò)有限的感官感知世界,并據(jù)此構(gòu)建出一個(gè)簡(jiǎn)化的內(nèi)部世界模型,這個(gè)模型不僅幫助我們理解世界,還指導(dǎo)我們預(yù)測(cè)未來(lái)。在計(jì)算機(jī)領(lǐng)域,世界模型同樣基于有限且選擇性的信息進(jìn)行決策和預(yù)測(cè),包含了觀察、狀態(tài)估計(jì)、動(dòng)作建議和潛在變量建議等核心元素。
在智能汽車領(lǐng)域,世界模型的應(yīng)用同樣前景廣闊。隨著高通8295芯片的普及和AR-HUD技術(shù)的廣泛應(yīng)用,3D人機(jī)界面(HMI)正成為智能座艙發(fā)展的新趨勢(shì)。用戶可以通過(guò)3D方式探索整個(gè)座艙場(chǎng)景,實(shí)現(xiàn)多視角切換,這種連貫且直接的體驗(yàn)正在重塑座艙的交互和信息呈現(xiàn)方式。
AI在智能座艙中的快速應(yīng)用正在構(gòu)建視覺(jué)、聽(tīng)覺(jué)、語(yǔ)義等多模態(tài)融合的全新體驗(yàn)。雖然目前世界模型在座艙中的應(yīng)用尚不成熟,但它預(yù)示著未來(lái)座艙將從被動(dòng)接受指令轉(zhuǎn)變?yōu)橹鲃?dòng)推薦和預(yù)測(cè),并更加精準(zhǔn)地融合人、車、外部環(huán)境的感知信息,實(shí)現(xiàn)千人千面的個(gè)性化體驗(yàn)。
在智能駕駛方面,世界模型同樣展現(xiàn)出巨大潛力。2024年,自動(dòng)駕駛端到端大模型成為車企競(jìng)逐的新焦點(diǎn)。這一模型取代了傳統(tǒng)的感知、描述、預(yù)測(cè)及規(guī)劃模塊,通過(guò)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)環(huán)境感知到車輛控制的全流程自動(dòng)化,使自動(dòng)駕駛更接近人類的真實(shí)駕駛。
蔚來(lái)汽車在其蔚來(lái)世界模型(NWM)中展示了世界模型在自動(dòng)駕駛方面的應(yīng)用潛力。NWM能夠在極短時(shí)間內(nèi)推演出多種車輛可能的軌跡,并根據(jù)外界信息不斷更新內(nèi)在時(shí)空模型,從而找到最佳駕駛決策。世界模型不僅降低了自動(dòng)駕駛的訓(xùn)練成本,提高了開(kāi)發(fā)速度,還為復(fù)雜場(chǎng)景的訓(xùn)練提供了可能。
隨著科技公司的不斷推動(dòng)和演進(jìn),世界模型正逐步走向成熟,為智能汽車成為人們的智能出行伴侶或移動(dòng)智能機(jī)器人奠定了堅(jiān)實(shí)基礎(chǔ)。