【ITBEAR】近期,人工智能技術(shù)的迅猛發(fā)展使得多模態(tài)技術(shù)成為業(yè)界矚目的焦點。在這一背景下,度小滿憑借其在多模態(tài)領(lǐng)域的深厚積累,攜手哈爾濱工業(yè)大學(xué),成功研發(fā)出一款名為SmartTrim的自適應(yīng)剪枝算法。
SmartTrim算法的出現(xiàn),旨在解決視覺語言大模型(VLM)在研究和應(yīng)用中面臨的高計算成本問題。該算法通過智能分析模型中各層的token表示和attention head的冗余性,有效削減了多模態(tài)大模型中的冗余計算,從而實現(xiàn)了計算效率的顯著提升。相關(guān)研究成果已在國際自然語言處理領(lǐng)域的頂級會議COLING 24上發(fā)表。
在基于VQA微調(diào)的METER的跨模態(tài)編碼器中,層內(nèi)不同token和attention head表示的相似性示意圖
SmartTrim算法的核心在于其自適應(yīng)剪枝能力。該算法通過兩個關(guān)鍵組件——跨模態(tài)感知的Token修剪器和模態(tài)自適應(yīng)的注意力頭修剪器,實現(xiàn)了對模型中不必要計算負擔(dān)的智能識別與剪除。Token修剪器利用多層感知器(MLP)結(jié)構(gòu),綜合考慮Token在單一模態(tài)序列中的獨立重要性及其在跨模態(tài)交互中的貢獻,智能地識別并去除那些對當前層不重要的Token。而注意力頭修剪器則直接集成在模型的自注意力模塊中,評估并修剪那些冗余的注意力頭,進一步優(yōu)化了模型的計算效率。
SmartTrim框架結(jié)構(gòu)圖
在訓(xùn)練SmartTrim模型時,研究人員采用了一種創(chuàng)新的雙重優(yōu)化策略,該策略結(jié)合了任務(wù)相關(guān)目標和計算開銷目標,通過重參數(shù)化技巧解決了不可導(dǎo)二值mask的問題,實現(xiàn)了模型的端到端訓(xùn)練。自蒸餾和課程學(xué)習(xí)策略的引入,進一步提高了剪枝后模型的性能,確保了訓(xùn)練過程的穩(wěn)定性和高效性。
Token的逐步裁剪修剪過程示意圖
實驗結(jié)果表明,SmartTrim算法在METER和BLIP兩個VLM上實現(xiàn)了2-3倍的加速效果,同時成功將性能損失降至最低。在1.5倍加速比下,SmartTrim的性能甚至超過了原始模型,展現(xiàn)出其在高加速比下的顯著優(yōu)勢。這一成果不僅為理論研究提供了新的視角,也為實際應(yīng)用中的模型優(yōu)化提供了切實可行的解決方案。
度小滿表示,SmartTrim技術(shù)的推出標志著多模態(tài)大模型研究邁出了重要的一步。未來,度小滿計劃將SmartTrim技術(shù)整合到公司的軒轅大模型中,以進一步提升大模型技術(shù)的性能和應(yīng)用效果。這一舉措將有望為金融領(lǐng)域帶來全新的變革和發(fā)展機遇。