【ITBEAR】摩爾線程近日宣布,已正式將高性能線性代數(shù)模板庫(kù)MUTLASS開(kāi)源,旨在助力開(kāi)發(fā)者更高效地為摩爾線程GPU的MUSA Core與Tensor Core等單元進(jìn)行編程。此舉有望加快基于國(guó)產(chǎn)GPU的算子開(kāi)發(fā)與算法創(chuàng)新步伐。
MUTLASS的開(kāi)源,是摩爾線程在開(kāi)放技術(shù)資源方面的又一重要舉措。此前,該公司已陸續(xù)開(kāi)源了OpenCV-MUSA計(jì)算機(jī)視覺(jué)庫(kù)、MooER音頻理解大模型以及vLLM-MUSA大語(yǔ)言模型高速推理框架,顯示出其對(duì)開(kāi)源社區(qū)的支持與投入。
在數(shù)值計(jì)算和深度學(xué)習(xí)領(lǐng)域,矩陣乘法及其變種是構(gòu)建上層復(fù)雜應(yīng)用的基礎(chǔ)。然而,為實(shí)現(xiàn)更高的算子融合效率或更創(chuàng)新的算法,開(kāi)發(fā)者們常需超越標(biāo)準(zhǔn)計(jì)算接口的限制。MUTLASS應(yīng)運(yùn)而生,專為滿足這一需求而設(shè)計(jì)。
作為摩爾線程針對(duì)自研MUSA架構(gòu)優(yōu)化的高性能計(jì)算庫(kù),MUTLASS基于開(kāi)源模板庫(kù)CUTLASS進(jìn)行了適配和定制化開(kāi)發(fā)。它提供了一系列高性能的C++模板組件,并采用分層分解及數(shù)據(jù)搬運(yùn)策略,以確保性能的充分發(fā)揮。
此次開(kāi)源的版本中,摩爾線程為CuTe后端庫(kù)增加了第三代MUSA架構(gòu)的MMA計(jì)算原語(yǔ),支持多種數(shù)據(jù)精度,包括TF32、FP16、BF16和INT8。這些功能為開(kāi)發(fā)者提供了更廣泛的選擇和靈活性。
借助MUTLASS,開(kāi)發(fā)者們可以靈活復(fù)用不同層級(jí)的模板組件,并根據(jù)需要修改實(shí)現(xiàn)細(xì)節(jié),以較低的成本實(shí)現(xiàn)定制化的高性能算子。這不僅有助于在摩爾線程全功能GPU上充分釋放性能,還為算法創(chuàng)新提供了更多可能。
摩爾線程表示,將繼續(xù)致力于優(yōu)化MUTLASS的性能,并不斷引入新功能,以滿足開(kāi)發(fā)者日益增長(zhǎng)的需求。