近日,北京智源人工智能研究院正式發(fā)布了《十大人工智能技術及應用趨勢》報告,詳細闡述了當前人工智能領域的最新技術動態(tài)和未來發(fā)展方向。該報告涵蓋了包括“具身智能”、世界模型、合成數(shù)據(jù)等在內(nèi)的多項前沿技術趨勢,旨在剖析科技演進的軌跡。
智源研究院院長王仲遠在發(fā)布會上指出,當前正處于AI發(fā)展的新拐點,大模型的快速發(fā)展正加速通用人工智能(AGI)時代的到來。原生統(tǒng)一多模態(tài)、具身智能以及AI在科學研究中的應用(AI for Science),將進一步深化人工智能對世界的感知、理解與推理,連接數(shù)字世界與物理世界,推動科學研究取得創(chuàng)新突破。智源研究院作為專注于AI領域的新型研發(fā)機構,希望通過這份報告為AI技術的發(fā)展指明方向。
智源研究院副院長兼總工程師林詠華在會上表示,雖然人們普遍期待AI能夠超越人類智力,實現(xiàn)通用人工智能,并從數(shù)字世界走向物理世界,但在這一過程中可能會出現(xiàn)多種路徑和方法,目前尚無法確定哪條路徑能夠成功,以及距離真正實現(xiàn)AGI還有多遠。
報告中的十大AI技術趨勢之一是AI for Science(AI4S)驅(qū)動科學研究范式變革。據(jù)統(tǒng)計,2024年,科研人員使用AI的比例顯著增加,接近半數(shù)的科研人員認為AI將對其工作領域產(chǎn)生積極影響。AI對科學研究方法和流程的變革效應已經(jīng)顯現(xiàn),特別是在生物醫(yī)學、氣象、材料發(fā)現(xiàn)等領域。
報告還指出,2025年將是“具身智能元年”。具身智能將從本體擴展到具身腦,國內(nèi)近100家具身初創(chuàng)公司或?qū)⒂瓉硐磁?,技術路線上端到端模型將繼續(xù)迭代,商業(yè)變現(xiàn)方面也將看到更多工業(yè)場景下的具身智能應用。
在圓桌對話環(huán)節(jié),螞蟻集團大模型對齊負責人溫祖杰表示,多模態(tài)技術的發(fā)展不僅限于視頻生成,還包括圖文多模態(tài)、OCR多模態(tài)等能力。螞蟻集團的“探一探”產(chǎn)品通過視覺能力和多模態(tài)能力實現(xiàn)了多輪對話式的互動交流,為用戶提供了更加符合真實體驗的產(chǎn)品感知。
報告中的另一趨勢是統(tǒng)一的多模態(tài)大模型將實現(xiàn)更高效的AI。當前的語言大模型和拼接式的多模態(tài)大模型在對人類思維過程的模擬上存在局限性,而原生多模態(tài)技術路線則為多模態(tài)發(fā)展提供了新的可能。訓練階段即對齊視覺、音頻、3D等模態(tài)的數(shù)據(jù),構建原生多模態(tài)大模型成為重要方向。
報告還提到了強化學習(RL)與大型語言模型(LLMs)的結合,將推動模型泛化從預訓練向后訓練、推理遷移。世界模型的加速發(fā)布有望成為多模態(tài)大模型的下一階段,其注重“因果”推理作用,賦予AI更高級別的認知和邏輯推理能力。
在數(shù)據(jù)方面,高質(zhì)量數(shù)據(jù)成為大模型進一步擴展的障礙,合成數(shù)據(jù)已成為基礎模型廠商補充數(shù)據(jù)的首選。合成數(shù)據(jù)可以降低人工治理和標注的成本,提升數(shù)據(jù)的多樣性,有助于模型處理長文本和復雜問題的能力。
報告還強調(diào)了推理優(yōu)化迭代加速對于AI應用落地的重要性。隨著大模型硬件載體從云端向手機、PC等端側硬件滲透,資源受限的設備上,大模型的落地應用面臨較大挑戰(zhàn)。算法加速和硬件優(yōu)化技術的持續(xù)迭代成為AI應用落地的必要條件。
智源研究院行業(yè)研究組負責人倪賢豪表示,從Chatbot到Copilot,再到Agent與Agentic AI,行業(yè)對于AI應用形態(tài)的理解越發(fā)深入。2025年,更通用、更自主的智能體將重塑產(chǎn)品應用形態(tài),成為大模型產(chǎn)品落地的重要應用形態(tài)。
最后,報告指出,AI安全治理體系的持續(xù)完善也是未來發(fā)展的重要方向。大模型的復雜性和涌現(xiàn)結果不可預測性對傳統(tǒng)工程的安全防護機制帶來了挑戰(zhàn),如何引入新的技術監(jiān)管方法、平衡行業(yè)發(fā)展和風險管控成為各方需要探討的議題。