ITBear旗下自媒體矩陣:

美圖北交大聯(lián)手,2080Ti實現(xiàn)4K圖像摳圖新突破:MEMatte算法問世

   時間:2025-01-23 12:37:24 來源:ITBEAR編輯:快訊團(tuán)隊 發(fā)表評論無障礙通道

在圖像處理領(lǐng)域,一項突破性的進(jìn)展近日由美圖影像研究院(MT Lab)攜手北京交通大學(xué)共同揭曉。他們研發(fā)了一種名為MEMatte的高效內(nèi)存摳圖框架,專為高分辨率圖像設(shè)計,尤其適用于顯存資源有限的商業(yè)顯卡和邊緣設(shè)備。

隨著攝影技術(shù)的飛速發(fā)展,日常拍攝圖像的分辨率已輕松跨越4K,邁向8K時代。這些高清圖像不僅帶來更為細(xì)膩的視覺享受,還為圖像和視頻編輯提供了更為豐富的素材。然而,高清圖像摳圖任務(wù)對技術(shù)提出了更高要求,特別是在細(xì)節(jié)保留和語義理解方面。

近年來,Transformer架構(gòu),特別是ViT(Vision Transformer),在自然圖像摳圖領(lǐng)域展現(xiàn)了顯著優(yōu)勢。其全局注意力機(jī)制擅長捕捉圖像內(nèi)容的長程依賴關(guān)系,但這一優(yōu)勢在高分辨率圖像面前卻成了計算資源的沉重負(fù)擔(dān)。ViT的全局注意力計算開銷巨大,且摳圖任務(wù)要求同時保留細(xì)節(jié)和語義信息,使得降采樣或圖像切片等方法難以應(yīng)用。

針對這一挑戰(zhàn),研究團(tuán)隊提出了創(chuàng)新的雙分支令牌路由設(shè)計。MEMatte框架中,包含語義信息的令牌被送入全局注意力模塊處理,而其余令牌則通過輕量化的令牌提煉模塊(LTRM)進(jìn)行優(yōu)化。這一設(shè)計通過動態(tài)路由機(jī)制(BATR)實現(xiàn)令牌分流,無需預(yù)設(shè)固定比例,能夠根據(jù)輸入圖像自適應(yīng)調(diào)整。

實驗結(jié)果顯示,MEMatte在顯存消耗方面顯著優(yōu)于現(xiàn)有方法,能夠在Nvidia GeForce 2080Ti商用GPU上實現(xiàn)4K分辨率圖像的摳圖任務(wù)。研究團(tuán)隊還開源了超高分辨率自然圖像摳圖數(shù)據(jù)集UHR-395,該數(shù)據(jù)集包含395個前景物體,平均分辨率高達(dá)4872×6017,為高分辨率摳圖模型的訓(xùn)練和評估提供了有力支持。

MEMatte的推理過程巧妙融合了局部與全局信息。在ViT編碼器的每個全局注意力模塊前,都設(shè)有一個路由器,通過局部-全局策略評估令牌的重要性。這一策略不僅考慮了局部細(xì)節(jié),還通過全局池化操作捕捉整體語義信息,確保分流結(jié)果的準(zhǔn)確性和有效性。

LTRM模塊由多個輕量化組件構(gòu)成,包括映射層、深度卷積層和高效通道注意力層,負(fù)責(zé)處理分流到全局注意力之外的令牌。這一設(shè)計在保證摳圖質(zhì)量的同時,大幅降低了計算開銷。

在通用摳圖基準(zhǔn)Composition-1K上,MEMatte相比基線方法節(jié)省了約88%的顯存開銷,并降低了約50%的推理時間。在高分辨率測試集UHR-395上,MEMatte同樣表現(xiàn)出色,展現(xiàn)了良好的泛化性能。

MEMatte的成功不僅在于其高效的內(nèi)存管理和計算性能,更在于其背后的創(chuàng)新設(shè)計理念。通過動態(tài)令牌路由和輕量化令牌提煉,研究團(tuán)隊成功解決了高分辨率圖像摳圖任務(wù)中的計算資源瓶頸問題,為圖像和視頻編輯領(lǐng)域帶來了更為廣闊的應(yīng)用前景。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version