近日,美國(guó)人工智能芯片初創(chuàng)企業(yè)Groq宣布成功從沙特阿拉伯獲得高達(dá)15億美元的融資,這筆資金將用于擴(kuò)展其位于沙特的人工智能基礎(chǔ)設(shè)施。
據(jù)悉,Groq已在沙特阿拉伯達(dá)曼設(shè)立了中東地區(qū)最大的推理集群,該集群包含19000個(gè)Groq LPU(語(yǔ)言處理單元),并于2024年12月迅速上線運(yùn)行。這一舉措展現(xiàn)了Groq在人工智能領(lǐng)域的雄心壯志。
在沙特阿拉伯利雅得舉行的LEAP 2025活動(dòng)上,Groq的首席執(zhí)行官兼創(chuàng)始人喬納森·羅斯宣布了這一融資消息。他表示,這筆資金將主要用于提高LPU的產(chǎn)量,同時(shí)也有可能用于將設(shè)計(jì)迭代到更先進(jìn)的制造工藝節(jié)點(diǎn),以及開發(fā)更多樣化的AI處理器。
Groq自2016年成立以來,便以其獨(dú)特的技術(shù)和強(qiáng)大的團(tuán)隊(duì)實(shí)力在AI芯片領(lǐng)域嶄露頭角。其核心團(tuán)隊(duì)源自谷歌最初的張量處理單元(TPU)工程團(tuán)隊(duì),擁有豐富的研發(fā)經(jīng)驗(yàn)和技術(shù)積累。創(chuàng)始人兼CEO喬納森·羅斯更是谷歌TPU項(xiàng)目的核心研發(fā)人員之一。
2024年2月,Groq推出了全球首個(gè)基于LPU方案的大模型推理芯片——Tensor Streaming Processor (TSP)。這款芯片采用全新的TSA架構(gòu),旨在提高機(jī)器學(xué)習(xí)和人工智能等計(jì)算密集型工作負(fù)載的性能。盡管它并未采用高昂的尖端制程工藝,而是選擇了14nm制程,但憑借自研的TSA架構(gòu)和高度并行處理能力,Groq LPU芯片仍然展現(xiàn)出了卓越的性能。
據(jù)官方數(shù)據(jù)顯示,Groq的LPU芯片可提供高達(dá)1000 TOPS(每秒萬億次運(yùn)算)的計(jì)算能力,并且在某些機(jī)器學(xué)習(xí)模型上的性能表現(xiàn)比常規(guī)的GPU和TPU提升10到100倍。該芯片還集成了230MB容量的SRAM來替代DRAM,以保證內(nèi)存帶寬,其片上內(nèi)存帶寬高達(dá)80TB/s。
在實(shí)際應(yīng)用中,基于Groq LPU芯片的云服務(wù)器在Llama2或Mistreal模型上的計(jì)算和響應(yīng)速度遠(yuǎn)超基于NVIDIA AI GPU的ChatGPT。據(jù)Groq表示,其LPU芯片每秒可以生成高達(dá)500個(gè)token,而ChatGPT-3.5的公開版本每秒只能生成大約40個(gè)token。這意味著Groq LPU芯片的響應(yīng)速度達(dá)到了NVIDIA GPU的10倍以上。與其他云平臺(tái)廠商相比,基于Groq LPU芯片的云服務(wù)器的大模型推理性能也實(shí)現(xiàn)了顯著提升。
在能耗方面,Groq LPU芯片同樣表現(xiàn)出色。英偉達(dá)GPU需要大約10到30焦耳才能生成響應(yīng)中的tokens,而Groq LPU芯片僅需1到3焦耳。這意味著在推理速度大幅提升的同時(shí),其能耗成本僅有英偉達(dá)GPU的十分之一,性價(jià)比提高了100倍。
Groq的策略是使用光纖互連將數(shù)百個(gè)LPU拼接在一起,每個(gè)LPU都裝有片上SRAM。通過使用576個(gè)LPU的集群,Groq聲稱能夠在meta的Llama 2 70B模型上實(shí)現(xiàn)每秒超過300個(gè)令牌的生成速率,是具有8個(gè)GPU的HGX H100系統(tǒng)的10倍,同時(shí)消耗十分之一的功率。
在演示中,Groq展示了其芯片的強(qiáng)大性能,支持多種模型,如Mistral AI的Mixtral8x7B SMoE以及meta的Llama2的7B和70B等。這些模型支持使用4096字節(jié)的上下文長(zhǎng)度,并可直接體驗(yàn)Demo。Groq還表示,其LPU推理芯片在第三方網(wǎng)站上的售價(jià)低于NVIDIA H100,進(jìn)一步彰顯了其性價(jià)比優(yōu)勢(shì)。
值得注意的是,盡管Groq的LPU芯片性能卓越,但它同樣受到了美國(guó)出口管制政策的影響。不過,據(jù)路透社報(bào)道,Groq已獲得必要的許可證以向沙特阿拉伯出口其產(chǎn)品。