阿里通義萬(wàn)相發(fā)布2.1版模型,視頻與圖像生成能力大幅提升
阿里巴巴旗下的通義萬(wàn)相平臺(tái)近期推出了其2.1版本的模型升級(jí),此次升級(jí)著重增強(qiáng)了視頻與圖像生成的功能,為用戶帶來(lái)了更為豐富和優(yōu)質(zhì)的創(chuàng)作體驗(yàn)。
在視頻生成領(lǐng)域,通義萬(wàn)相2.1版引入了自主研發(fā)的高效VAE和DiT架構(gòu),這一創(chuàng)新不僅顯著提升了時(shí)空上下文建模的能力,還成功實(shí)現(xiàn)了中文文字視頻生成的功能。據(jù)悉,該功能在VBench榜單中已經(jīng)取得了領(lǐng)先地位,彰顯了通義萬(wàn)相在視頻生成技術(shù)上的深厚積累。
不僅如此,通義萬(wàn)相2.1版還為用戶提供了中英文視頻一鍵生成藝術(shù)字的便捷功能,并配備了多種視覺(jué)效果選項(xiàng),如過(guò)渡效果、粒子效果以及模擬效果等。用戶可以根據(jù)自己的創(chuàng)作需求,自由選擇并添加合適的特效,從而進(jìn)一步提升視頻的表現(xiàn)力和觀賞性。
在圖像生成方面,通義萬(wàn)相2.1版同樣帶來(lái)了顯著的進(jìn)步。該版本采用了IC-LoRA圖像生成訓(xùn)練方法,并借助DiT架構(gòu)來(lái)增強(qiáng)文本到圖像的上下文能力。通過(guò)這一技術(shù),用戶可以輕松實(shí)現(xiàn)多張圖像的拼接與聯(lián)合描述,從而生成關(guān)聯(lián)性強(qiáng)且特征穩(wěn)定連續(xù)的圖像組合。
此次通義萬(wàn)相2.1版的模型升級(jí),不僅提升了視頻和圖像生成的質(zhì)量與效率,更為用戶提供了更為多樣化、個(gè)性化的創(chuàng)作選擇。無(wú)論是想要制作中文文字視頻的用戶,還是需要生成關(guān)聯(lián)圖像組合的設(shè)計(jì)師,都能在通義萬(wàn)相2.1版中找到滿意的解決方案。