滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

通義萬相登頂權(quán)威榜單，全面超越國內(nèi)外主流開閉源視頻生成模型

時(shí)間：2025-01-09 11:00:03 來源：互聯(lián)網(wǎng)編輯：茹茹 發(fā)表評(píng)論無障礙通道

1月9日消息，阿里云通義萬相迎來重磅升級(jí)，推出萬相2.1視頻生成模型，在大幅度復(fù)雜運(yùn)動(dòng)、物理規(guī)律遵循、藝術(shù)表現(xiàn)等方面全面提升。根據(jù)權(quán)威評(píng)測榜單VBench的信息顯示，新版通義萬相登上榜首位置，超越混元、海螺AI、Gen3、Pika等國內(nèi)外視頻生成模型。

通義萬相登頂VBench榜單

VBench是視頻生成領(lǐng)域的權(quán)威評(píng)測集，它一共有16個(gè)評(píng)分維度，從整體一致性、動(dòng)作流暢度、畫面穩(wěn)定性等方面對(duì)模型進(jìn)行全方位評(píng)估。VBench榜單顯示，通義萬相在運(yùn)動(dòng)幅度、多對(duì)象生成、空間關(guān)系等關(guān)鍵能力上拿下最高分，并以總分84.7%的成績斬獲第一。

精準(zhǔn)理解和模擬物理世界是當(dāng)下視頻生成模型的核心難題，現(xiàn)有模型生成的視頻在大幅運(yùn)動(dòng)、物理復(fù)雜場景表現(xiàn)較差，容易生成肢體扭曲、違背物理定律的視頻。針對(duì)這一難題，通義萬相團(tuán)隊(duì)采用自研高效的VAE和DiT架構(gòu)，有效增強(qiáng)時(shí)空上下文關(guān)系建模能力。

在DiT的設(shè)計(jì)中，全新通義萬相使用時(shí)空全注意機(jī)制，這一機(jī)制讓模型能夠更準(zhǔn)確地模擬現(xiàn)實(shí)世界的復(fù)雜動(dòng)態(tài);團(tuán)隊(duì)還引入了參數(shù)共享機(jī)制，不僅提升了模型的性能，還有效降低了訓(xùn)練成本;此外，針對(duì)文本的嵌入進(jìn)行優(yōu)化，實(shí)現(xiàn)更優(yōu)的文本可控性的同時(shí)也減少了計(jì)算需求。

在視頻VAE方面，通義萬相設(shè)計(jì)了一種創(chuàng)新的視頻編解碼方案。通過將視頻拆分成若干塊(Chunk)并緩存中間特征的方式，代替直接對(duì)長視頻的E2E編解碼過程，實(shí)現(xiàn)顯存的使用與原始視頻長度無關(guān)，從而能夠支持無限長1080P視頻的高效編解碼，這一關(guān)鍵技術(shù)為任意時(shí)長視頻的訓(xùn)練提供了新的路徑。

在全新架構(gòu)下，通義萬相在大幅度的肢體運(yùn)動(dòng)和肢體旋轉(zhuǎn)場景的視頻生成上表現(xiàn)更穩(wěn)定，即便是花樣滑冰、游泳、跳水等運(yùn)動(dòng)視頻也能保持肢體協(xié)調(diào)并符合正常運(yùn)動(dòng)軌跡。通義萬相在文字視頻生成上實(shí)現(xiàn)了突破，成為首個(gè)支持中文文字生成能力、且同時(shí)支持中英文文字特效生成的視頻生成模型，可滿足廣告設(shè)計(jì)、短視頻等領(lǐng)域的創(chuàng)作需求。

例如，用戶輸入“平拍一位女性花樣滑冰運(yùn)動(dòng)員在冰場上進(jìn)行表演的全景。她穿著紫色的滑冰服，腳踩白色的滑冰鞋，正在進(jìn)行一個(gè)旋轉(zhuǎn)動(dòng)作。她的手臂張開，身體向后傾斜，展現(xiàn)了她的技巧和優(yōu)雅”，通義萬相即可精準(zhǔn)理解語義，并生成一段接近專業(yè)滑冰運(yùn)動(dòng)員的視頻。

據(jù)悉，目前該模型已全面開放，用戶可在通義萬相官網(wǎng)直接免費(fèi)使用，個(gè)人開發(fā)者和企業(yè)用戶還可在阿里云百煉調(diào)用通義萬相API，進(jìn)一步創(chuàng)造更豐富的AI工具和應(yīng)用。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類資訊

2025可穿戴設(shè)備新展望：智能戒指等五大創(chuàng)新趨勢將引領(lǐng)潮流

01-09

蘋果股票評(píng)級(jí)遭下調(diào)，機(jī)構(gòu)罕見建議“賣出”！市場何去何從？

01-09

UFS 4.1標(biāo)準(zhǔn)發(fā)布：移動(dòng)設(shè)備性能再升級(jí)，最高讀寫速度達(dá)4.2GB/s

01-09

AI玩具風(fēng)靡，情感陪伴賽道“錢”景幾何？

在 Lori 看來，市場對(duì) AI 玩具的熱度并不是一件壞事，產(chǎn)業(yè)需要曝光，這背后是大眾對(duì) AI 硬件的關(guān)注度不減，再加上 AI 玩具作為一個(gè)消費(fèi)級(jí)的產(chǎn)品，在社會(huì)“群體孤獨(dú)”的現(xiàn)象下，“為什么大家寧愿跟玩具聊…

01-09

D-Wave首席執(zhí)行官質(zhì)疑黃仁勛：量子計(jì)算商用已現(xiàn)實(shí)？

01-09

TikTok電商風(fēng)起，出海匠SaaS平臺(tái)助力賣家精準(zhǔn)營銷

01-09

Arm或?qū)⑹召徏坠俏闹С值陌雽?dǎo)體設(shè)計(jì)公司Ampere Computing？

01-09

微軟開源小參數(shù)模型Phi-4，性能超GPT-4o，能否引領(lǐng)AI新潮流？

01-09

英偉達(dá)CES發(fā)布Project Digits：3000美元迷你AI超算實(shí)拍亮相

01-09

LipDub：以AI之力，重塑影視制作速度與效率

He believes that AI is the way to solve the common and persistentproblem of hefty costs in the video a…

01-09

IBM大中華區(qū)董事長陳旭東：員工舉報(bào)指控不成立，未來將深耕中國市場

據(jù)新浪科技今日?qǐng)?bào)道，在參加新浪財(cái)經(jīng)主辦的“十大經(jīng)濟(jì)年度人物”十周年活動(dòng)期間，IBM大中華區(qū)董事長兼總經(jīng)理陳旭東回應(yīng)稱，針對(duì)此前的“員工舉報(bào)”事件，“IBM 委派了一個(gè)獨(dú)立的專業(yè)團(tuán)隊(duì)針對(duì)公開信中的指控進(jìn)行了…

01-09

AI視頻生成技術(shù)研討會(huì)：探索生成式AI新前沿，哪些難題將被破解？

一、上海站三場研討會(huì)之一，完整議程公布目前，AI視頻生成技術(shù)研討會(huì)邀請(qǐng)到中存算董事長陳巍，上海交通大學(xué)人工智能研究院助理教授晏軼超，新壹科技AI算法主任架構(gòu)師李璋，井英科技聯(lián)合創(chuàng)始人、CTO王健，曠視研究院…

01-09

2024生成式AI大會(huì)上海站：大模型與AI Infra企業(yè)齊聚，報(bào)名火熱進(jìn)行中！

在首日進(jìn)行的大模型峰會(huì)上，復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、上海市智能信息處理實(shí)驗(yàn)室副主任張奇將帶來主題報(bào)告，聯(lián)匯科技CEO兼首席科學(xué)家趙天成、VAST CTO梁鼎、螞蟻集團(tuán)資深算法專家李龍飛將進(jìn)行主題演講，…

01-09

AI短劇翻譯助力國產(chǎn)短劇出海，成本大降成短劇平臺(tái)新寵

在2023年下半年的一次短劇出海行業(yè)會(huì)議上，小影科技創(chuàng)始人兼CEO韓晟，以及小影科技業(yè)務(wù)VP、影伙引擎AI短劇創(chuàng)作服務(wù)業(yè)務(wù)負(fù)責(zé)人張航看到了這一需求；同年10月，他們決定做一款A(yù)I短劇翻譯模型。也是在202…

01-09

2024中國生成式AI大會(huì)：RockAI楊華揭秘非Transformer架構(gòu)大模型實(shí)踐

上海站以“智能躍進(jìn)創(chuàng)造無限”為主題，將邀請(qǐng)50+位嘉賓帶來致辭、演講、報(bào)告和對(duì)話討論，以前瞻性視角為大家解構(gòu)和把脈生成式AI的技術(shù)產(chǎn)品創(chuàng)新、商業(yè)落地解法、未來趨勢走向與前沿研究焦點(diǎn)。 2024中國生成式A…

01-09

點(diǎn)擊查看更多 +

全站最新

芯片工藝不斷突破，背后竟是晶圓廠與設(shè)備廠的共贏“陽謀”？

大疆Matrice 4E無人機(jī)發(fā)布：多光旗艦，百米外目標(biāo)清晰可見

國補(bǔ)新政來襲！6000元以上手機(jī)無緣，蘋果華為受影響？

華碩ROG ASTRAL夜神系列顯卡震撼發(fā)布，四風(fēng)扇設(shè)計(jì)引領(lǐng)新潮流！

雷克沙ARMOR系列SD卡震撼發(fā)布：不銹鋼甲胄，寫入速度飆升至205MB/s！

京東年貨節(jié)，“東哥”同款銀柳福桶與大紅燈籠成搶手貨！

熱門內(nèi)容

本欄最新

2025可穿戴設(shè)備新展望：智能戒指等五大創(chuàng)新趨勢將引領(lǐng)潮流

AI玩具風(fēng)靡，情感陪伴賽道“錢”景幾何？

D-Wave首席執(zhí)行官質(zhì)疑黃仁勛：量子計(jì)算商用已現(xiàn)實(shí)？

Arm或?qū)⑹召徏坠俏闹С值陌雽?dǎo)體設(shè)計(jì)公司Ampere Computing？

英偉達(dá)CES發(fā)布Project Digits：3000美元迷你AI超算實(shí)拍亮相

LipDub：以AI之力，重塑影視制作速度與效率

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

通義萬相登頂權(quán)威榜單，全面超越國內(nèi)外主流開閉源視頻生成模型

通義萬相登頂權(quán)威榜單，全面超越國內(nèi)外主流開閉源視頻生成模型