在科技界的矚目下,NVIDIA于近期宣布了一項(xiàng)革命性的進(jìn)展——推出了名為Cosmos的世界基礎(chǔ)模型平臺(tái)。這一創(chuàng)新之舉在CES 2025大會(huì)上由NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛親自揭曉,旨在解決通用機(jī)器人與自動(dòng)駕駛領(lǐng)域長(zhǎng)期面臨的數(shù)據(jù)瓶頸問題。
Cosmos平臺(tái)集成了先進(jìn)的生成式世界基礎(chǔ)模型、高效視頻分詞器、安全護(hù)欄以及加速視頻處理流水線,并專為NVIDIA數(shù)據(jù)中心GPU進(jìn)行了深度優(yōu)化。該平臺(tái)致力于推動(dòng)自動(dòng)駕駛汽車、機(jī)器人等物理AI系統(tǒng)的快速發(fā)展,為開發(fā)者們提供了前所未有的便捷與效率。
物理AI模型的開發(fā)歷來成本高昂,需要大量真實(shí)數(shù)據(jù)和繁瑣的測(cè)試。Cosmos的推出,使得開發(fā)者能夠輕松生成基于物理學(xué)的逼真合成數(shù)據(jù),極大地降低了數(shù)據(jù)獲取的門檻。通過微調(diào)Cosmos世界基礎(chǔ)模型,開發(fā)者還能夠構(gòu)建出符合特定需求的自定義模型,進(jìn)一步加速了物理AI的研發(fā)進(jìn)程。
據(jù)悉,Cosmos平臺(tái)的首批用戶涵蓋了眾多全球物理AI領(lǐng)域的領(lǐng)軍企業(yè),如1X、思靈機(jī)器人、Agility、Figure AI、Foretellix、傅利葉、銀河通用、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Uber、Waabi以及小鵬汽車等,涉及機(jī)器人、自動(dòng)駕駛、共享出行等多個(gè)領(lǐng)域。
NVIDIA以開放模型許可證的方式提供Cosmos模型,首批共推出8款,參數(shù)量從40億到140億不等。用戶可以在NVIDIA API目錄中預(yù)覽這些模型,并在NVIDIA NGC目錄或Hugging Face平臺(tái)上下載整個(gè)系列的模型和微調(diào)框架。未來,這些模型還將以全面優(yōu)化的NVIDIA NIM微服務(wù)形式提供給用戶。
在開發(fā)過程中,開發(fā)者可以利用NVIDIA NeMo Curator加速視頻處理,并使用NVIDIA NeMo框架來定制自己的世界模型。隨后,通過NVIDIA DGX Cloud平臺(tái),這些模型可以快速、簡(jiǎn)單地部署到實(shí)際應(yīng)用中。NVIDIA AI Enterprise軟件平臺(tái)還將為用戶提供全方位的企業(yè)支持。
黃仁勛在演講中強(qiáng)調(diào):“機(jī)器人技術(shù)的ChatGPT時(shí)刻即將到來。與大語言模型一樣,世界基礎(chǔ)模型將成為推動(dòng)機(jī)器人和自動(dòng)駕駛汽車開發(fā)的關(guān)鍵力量?!彼硎荆琋VIDIA創(chuàng)建Cosmos的初衷是普及物理AI,讓每一位開發(fā)者都能接觸到通用機(jī)器人技術(shù),從而推動(dòng)整個(gè)行業(yè)的快速發(fā)展。
Cosmos世界基礎(chǔ)模型專為物理AI的研發(fā)而設(shè)計(jì),采用了一套開放擴(kuò)散和自回歸Transformer模型架構(gòu)。該模型能夠基于物理學(xué)原理實(shí)現(xiàn)交互、物體恒存性,并生成高質(zhì)量的仿真工業(yè)環(huán)境(如倉庫、工廠)和駕駛環(huán)境(包括各種路況)。這些模型經(jīng)過2000萬小時(shí)真實(shí)世界數(shù)據(jù)的訓(xùn)練,能夠根據(jù)文本、圖像和視頻等輸入組合以及機(jī)器人傳感器或運(yùn)動(dòng)數(shù)據(jù)生成逼真的物理學(xué)視頻。
黃仁勛還展示了Cosmos在實(shí)際應(yīng)用中的多個(gè)用例,包括視頻搜索和理解、基于物理學(xué)的逼真合成數(shù)據(jù)生成、物理AI模型開發(fā)和評(píng)估以及預(yù)測(cè)與“多元宇宙”模擬等。這些用例充分展示了Cosmos在推動(dòng)物理AI發(fā)展方面的巨大潛力。
NVIDIA還為用戶提供了先進(jìn)的開發(fā)工具,以節(jié)省在數(shù)據(jù)整理、訓(xùn)練和模型定制方面的巨大成本。其中,NVIDIA NeMo Curator驅(qū)動(dòng)的NVIDIA AI和CUDA加速數(shù)據(jù)處理管線能夠在短時(shí)間內(nèi)處理大量視頻數(shù)據(jù);NVIDIA Cosmos Tokenizer則是一種先進(jìn)的可視化分詞器,能夠顯著提高圖像和視頻的分詞效率和壓縮率;而NVIDIA NeMo框架則可用于高效的模型訓(xùn)練、定制和優(yōu)化。
在隱私和數(shù)據(jù)保護(hù)方面,NVIDIA也做出了一系列精心設(shè)計(jì)。Cosmos平臺(tái)遵循NVIDIA的可信AI原則,將隱私、安全、保障、透明和減少不必要的偏見作為首要考慮。平臺(tái)加入了專為減少有害文字和圖像而設(shè)計(jì)的護(hù)欄,并提供了增強(qiáng)文字提示準(zhǔn)確性的工具。同時(shí),使用Cosmos生成的視頻會(huì)帶有隱形水印,以識(shí)別AI生成的內(nèi)容,從而減少錯(cuò)誤信息和錯(cuò)誤歸屬的可能性。
多家物理AI企業(yè)已經(jīng)采用了Cosmos技術(shù),并取得了顯著的成效。例如,AI人形機(jī)器人公司1X利用Cosmos Tokenizer推出了1X World Model Challenge數(shù)據(jù)集;Hillbot和Skild AI正在使用Cosmos加速通用機(jī)器人的開發(fā);小鵬汽車也將借助Cosmos加快人形機(jī)器人的研發(fā)進(jìn)程。這些企業(yè)的成功實(shí)踐進(jìn)一步證明了Cosmos在推動(dòng)物理AI發(fā)展方面的巨大價(jià)值。
在交通運(yùn)輸領(lǐng)域,一些領(lǐng)先企業(yè)也在積極探索Cosmos的應(yīng)用。Waabi公司正在評(píng)估Cosmos在自動(dòng)駕駛汽車軟件開發(fā)和仿真中數(shù)據(jù)整理的應(yīng)用;自動(dòng)駕駛AI基礎(chǔ)模型公司W(wǎng)ayve也在考慮使用Cosmos搜索用于提高安全性和驗(yàn)證的極端駕駛場(chǎng)景;而自動(dòng)駕駛汽車工具鏈提供商Foretellix則計(jì)劃利用Cosmos與NVIDIA Omniverse Sensor RTX API大規(guī)模評(píng)估和生成高保真測(cè)試場(chǎng)景與訓(xùn)練數(shù)據(jù)。
全球共享出行巨頭Uber也在與NVIDIA合作,共同加速自動(dòng)駕駛汽車的發(fā)展。通過結(jié)合Uber豐富的駕駛數(shù)據(jù)集與Cosmos平臺(tái)和NVIDIA DGX Cloud的功能,Uber的自動(dòng)駕駛汽車合作伙伴能夠更加高效地構(gòu)建出更強(qiáng)大的AI模型。Uber首席執(zhí)行官Dara Khosrowshahi表示,生成式AI將驅(qū)動(dòng)未來的移動(dòng)出行,而NVIDIA的助力將幫助Uber團(tuán)隊(duì)更快開發(fā)出安全、可擴(kuò)展的自動(dòng)駕駛解決方案。