近期,一家專注于大模型架構創(chuàng)新的企業(yè)——元始智能(RWKV),成功完成了數(shù)千萬人民幣的天使輪融資。本輪融資由天際資本獨家領投,融資后公司估值實現(xiàn)了翻倍增長。這筆資金將主要用于團隊規(guī)模的擴大、新架構的研發(fā)迭代以及產(chǎn)品的商業(yè)化推廣。
自2022年11月OpenAI推出ChatGPT以來,生成式AI技術迅速席卷全球,而Transformer架構及其背后的Scaling Law成為了這場技術革命的核心。通過大幅提升AI模型的參數(shù)規(guī)模,從億級躍升至千億、萬億級別,大語言模型(LLM)在學習了龐大的數(shù)據(jù)后,展現(xiàn)出了前所未有的智能。
然而,大模型并非無所不能。幻覺問題和準確率的局限性,成為了其難以克服的障礙。隨著2024年大模型迭代速度的放緩,無論是學術界還是工業(yè)界,都開始對Transformer架構及其背后的Scaling Law進行深入探討。
正是在這樣的背景下,元始智能(RWKV)應運而生,致力于探索超越Transformer架構的新路徑。聯(lián)合創(chuàng)始人羅璇表示:“我們不僅僅是一家大模型公司,更是一家具備持續(xù)創(chuàng)新AI模型底層架構能力的‘黑科技’企業(yè)。”
RWKV的創(chuàng)始人彭博,一位畢業(yè)于香港大學物理系的量化交易專家,自2020年起便獨立開發(fā)RWKV這一創(chuàng)新架構。從2022年底發(fā)布首個模型,到如今商業(yè)公司的正式成立,RWKV團隊已從最初的3人壯大至近20人。
與依賴巨額算力和數(shù)據(jù)的Transformer架構不同,RWKV選擇了一條更為高效和靈活的技術路線。羅璇解釋道:“Transformer架構在處理對話時,需要重復讀取前文并記錄每個Token的狀態(tài),這導致其信息處理效率低下且算力需求巨大。而RWKV則無需記錄每個Token的狀態(tài),大大減少了計算量,實現(xiàn)了高效推理?!?/p>
RWKV的技術突破在于,它將Transformer的高效并行訓練與RNN的高效推理能力相結合。雖然RNN并非新技術,且過去被認為能力弱于Transformer,但RWKV證明了改進后的RNN不僅效率更高,而且同樣具備強大的語言建模能力。
然而,RWKV也面臨一個挑戰(zhàn):作為狀態(tài)空間大小固定的RNN,它無法將無限長度的前文全部壓縮進狀態(tài)空間。這意味著RWKV會逐漸遺忘一些細節(jié)。但彭博認為,這并非缺陷。通過引入強化學習方法,RWKV可以自動判斷在必要時重新閱讀前文,這比Transformer的“強行記憶”更為高效。
RWKV的特性使其在寫作、音樂生成等創(chuàng)意性場景中更具優(yōu)勢。羅璇表示:“RWKV的架構更接近人腦的記憶演繹機制,能夠產(chǎn)生更具創(chuàng)新性的內容?!蹦壳?,RWKV已經(jīng)完成了從0.1B到14B的模型訓練,并發(fā)布了32B的預覽模型。其最新版本的RWKV-7模型,在同等參數(shù)規(guī)模下全面超越了Transformer架構的性能。
RWKV-7不僅在模型學習效率上更快提升準確度,而且在核心benchmark測試中表現(xiàn)更優(yōu)。其記憶力也顯著增強。例如,0.1B的RWKV-7在4k上下文窗口下訓練,就能自動解決16k的復雜問題。
除了技術上的突破,元始智能還在商業(yè)化方面取得了進展。其公司業(yè)務分為兩大部分:一是將模型開源并持續(xù)保持全開源和免費;二是在商業(yè)實體方面,推出了AI音樂生成應用,并面向B端市場提供模型授權服務。目前,已有包括騰訊、阿里在內的多家高校和公司使用了RWKV。
在To B領域,元始智能選擇了智能和新能源兩大領域作為切入點,已與國家電網(wǎng)、有鹿機器人等企業(yè)達成合作。未來,元始智能計劃推出更大參數(shù)的RWKV-7模型及終端部署方案,并探索結合新型推理框架和芯片的大規(guī)模模型應用。