ITBear旗下自媒體矩陣:

即夢(mèng)AI新技能:圖+音合成視頻,內(nèi)測(cè)即將開啟!

   時(shí)間:2025-02-07 18:35:14 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

近日,即夢(mèng)AI在官方社交媒體平臺(tái)上發(fā)布了一則令人矚目的消息,預(yù)告了其即將上線的新功能。這項(xiàng)功能的核心在于一個(gè)名為OmniHuman的多模態(tài)視頻生成模型,該模型由字節(jié)跳動(dòng)自主研發(fā),旨在通過用戶提供的單張圖片和音頻文件,自動(dòng)生成富有生動(dòng)感的AI視頻。

根據(jù)即夢(mèng)AI發(fā)布的預(yù)告視頻顯示,OmniHuman模型的應(yīng)用場(chǎng)景極為廣泛。用戶只需簡(jiǎn)單地上傳一張包含人物肖像、半身或全身的圖片,并搭配一段音頻,模型便能在視頻中讓該人物根據(jù)音頻內(nèi)容做出相應(yīng)的動(dòng)作,無論是演講、唱歌、演奏樂器還是移動(dòng),都能呈現(xiàn)得栩栩如生。這一技術(shù)有望極大地提升AI短片的制作效率和質(zhì)量。

OmniHuman模型在解決人物視頻生成中常見的手勢(shì)崩壞問題上,相較于現(xiàn)有方法取得了顯著的進(jìn)步。該模型還支持非真人圖片輸入,如動(dòng)漫、3D卡通等,生成的視頻能夠保持輸入圖片的特定風(fēng)格和原有的運(yùn)動(dòng)模式,這一特性無疑為創(chuàng)作者提供了更多的可能性。

據(jù)即夢(mèng)AI技術(shù)主頁(yè)的信息顯示,OmniHuman模型為閉源模型,這意味著它不會(huì)對(duì)外公開下載。這一決策可能是為了防止該技術(shù)被不當(dāng)利用。同時(shí),從技術(shù)主頁(yè)展示的演示效果來看,OmniHuman的生成效果已經(jīng)相當(dāng)自然,令人印象深刻。

盡管OmniHuman模型已經(jīng)表現(xiàn)出色,但即夢(mèng)AI的相關(guān)負(fù)責(zé)人透露,該模型在生成影視真實(shí)級(jí)別的視頻上仍存在一定的提升空間。因此,由該模型支持的多模態(tài)視頻生成功能將在即夢(mèng)平臺(tái)上以小范圍內(nèi)測(cè)的形式進(jìn)行調(diào)優(yōu)調(diào)整,并逐步向用戶開放。

為了確保AI技術(shù)的正面應(yīng)用,即夢(mèng)AI還宣布將對(duì)此功能設(shè)置嚴(yán)格的安全審核機(jī)制,并對(duì)輸出的視頻標(biāo)注水印以作提醒。這一舉措旨在保障視頻創(chuàng)作者能夠更好地實(shí)現(xiàn)想象力的表達(dá),同時(shí)防止技術(shù)被濫用。

隨著OmniHuman模型的逐步推廣和應(yīng)用,我們有理由相信,AI視頻生成技術(shù)將迎來一個(gè)全新的發(fā)展階段,為視頻創(chuàng)作者提供更多元化、更高效的創(chuàng)作工具。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version