【ITBEAR】騰訊近日推出了業(yè)界領(lǐng)先的Hunyuan-Large大模型,該模型基于Transformer架構(gòu),并采用了MoE(Mixture of Experts)設(shè)計(jì)。據(jù)悉,這是目前業(yè)界已經(jīng)開源的最大規(guī)模的MoE模型,擁有驚人的3890億總參數(shù)和520億激活參數(shù)。
騰訊在Hugging Face平臺(tái)上開源了Hunyuan-A52B的三個(gè)版本,包括預(yù)訓(xùn)練版、指令版和指令版FP8,同時(shí)發(fā)布了詳盡的技術(shù)報(bào)告與操作手冊(cè),供開發(fā)者深入了解模型的功能及操作方法。
Hunyuan-Large模型具備多項(xiàng)技術(shù)優(yōu)勢(shì),例如通過高質(zhì)量合成數(shù)據(jù)增強(qiáng)訓(xùn)練,使模型能夠?qū)W習(xí)到更為豐富的數(shù)據(jù)表示,有效處理長上下文輸入,并提升了對(duì)未見數(shù)據(jù)的泛化能力。模型還采用了創(chuàng)新的KV緩存壓縮技術(shù),通過分組查詢注意力和跨層注意力策略,大幅降低了內(nèi)存占用和計(jì)算成本,從而提高了推理效率。
該模型還引入了專家特定學(xué)習(xí)率縮放技術(shù),為不同的專家子模型設(shè)定了差異化的學(xué)習(xí)率,確保了每個(gè)子模型都能從數(shù)據(jù)中高效學(xué)習(xí),并為模型的整體性能作出貢獻(xiàn)。在長上下文處理能力方面,Hunyuan-Large也表現(xiàn)出色,其預(yù)訓(xùn)練模型支持處理長達(dá)256K的文本序列,而指令版模型則支持128K的文本序列,顯著增強(qiáng)了處理長上下文任務(wù)的能力。
為了驗(yàn)證模型的實(shí)際應(yīng)用效果和安全性,騰訊在多種語言和任務(wù)上進(jìn)行了廣泛的基準(zhǔn)測(cè)試。測(cè)試結(jié)果充分證明了Hunyuan-Large模型的卓越性能和廣泛適用性。
對(duì)于想要深入了解Hunyuan-Large模型的開發(fā)者和研究者,騰訊提供了豐富的資源鏈接,包括論文、Github倉庫、Huggingface模型庫以及騰訊云上的相關(guān)產(chǎn)品頁面。