【ITBEAR】摩爾線程近日宣布,已成功將大語(yǔ)言模型高速推理框架vLLM的MUSA移植版本上線,為開(kāi)發(fā)者在使用摩爾線程全功能GPU進(jìn)行開(kāi)源項(xiàng)目MUSA移植時(shí),提供了實(shí)用的參考范例。
該公司正致力于依托其自主研發(fā)的統(tǒng)一系統(tǒng)架構(gòu)GPU以及MUSA軟件平臺(tái),構(gòu)建一個(gè)完善且用戶友好的MUSA應(yīng)用生態(tài)。
據(jù)悉,vLLM是一款高效且便捷的大模型推理和服務(wù)框架,它支持包括PagedAttention內(nèi)存管理、連續(xù)批處理請(qǐng)求、CUDA/HIP圖的快速模型執(zhí)行在內(nèi)的多項(xiàng)創(chuàng)新技術(shù),并能顯著提升大語(yǔ)言模型(LLM)的推理性能。目前,該框架已被廣泛應(yīng)用于各類大語(yǔ)言模型,并成為行業(yè)內(nèi)備受推崇的開(kāi)源大模型推理框架。
摩爾線程基于vLLM v0.4.2版本進(jìn)行了細(xì)致的移植適配工作,使得該框架能夠支持摩爾線程GPU后端Device。更重要的是,這一移植版本已完全開(kāi)源,為開(kāi)發(fā)者提供了二次開(kāi)發(fā)、升級(jí)vLLM至社區(qū)更新版本等靈活性。
摩爾線程的MUSA架構(gòu)憑借其先進(jìn)性,以及軟件棧對(duì)CUDA的出色兼容性,通過(guò)MUSIFY代碼自動(dòng)轉(zhuǎn)換工具,用戶可以輕松將原有的CUDA代碼遷移至MUSA平臺(tái),實(shí)現(xiàn)無(wú)縫替代。
同時(shí),摩爾線程還提供了包括算子庫(kù)muDNN、集合通信庫(kù)MCCL、線性代數(shù)庫(kù)muBLAS等一系列MUSA加速庫(kù),以便快速替換CUDA相關(guān)庫(kù)的調(diào)用。
通過(guò)MUSA軟件棧對(duì)CUDA軟件棧接口的兼容,摩爾線程不僅大幅提高了應(yīng)用移植的效率,還縮短了開(kāi)發(fā)周期。該公司還提供了一系列實(shí)用的工具和腳本,其中包括MUSIFY自動(dòng)代碼移植工具,以進(jìn)一步簡(jiǎn)化開(kāi)發(fā)過(guò)程。
對(duì)于那些對(duì)摩爾線程vLLM-MUSA開(kāi)源項(xiàng)目感興趣的開(kāi)發(fā)者,可以通過(guò)以下鏈接獲取更多信息:
https://github.com/MooreThreads/vLLM_musa