近日,即夢(mèng)AI在官方社交媒體平臺(tái)上發(fā)布了一則令人矚目的消息,預(yù)告了其即將上線的新功能。這項(xiàng)功能的核心在于一個(gè)名為OmniHuman的多模態(tài)視頻生成模型,該模型由字節(jié)跳動(dòng)自主研發(fā),旨在通過用戶提供的單張圖片和音頻文件,自動(dòng)生成富有生動(dòng)感的AI視頻。
根據(jù)即夢(mèng)AI發(fā)布的預(yù)告視頻顯示,OmniHuman模型的應(yīng)用場(chǎng)景極為廣泛。用戶只需簡(jiǎn)單地上傳一張包含人物肖像、半身或全身的圖片,并搭配一段音頻,模型便能在視頻中讓該人物根據(jù)音頻內(nèi)容做出相應(yīng)的動(dòng)作,無論是演講、唱歌、演奏樂器還是移動(dòng),都能呈現(xiàn)得栩栩如生。這一技術(shù)有望極大地提升AI短片的制作效率和質(zhì)量。
OmniHuman模型在解決人物視頻生成中常見的手勢(shì)崩壞問題上,相較于現(xiàn)有方法取得了顯著的進(jìn)步。該模型還支持非真人圖片輸入,如動(dòng)漫、3D卡通等,生成的視頻能夠保持輸入圖片的特定風(fēng)格和原有的運(yùn)動(dòng)模式,這一特性無疑為創(chuàng)作者提供了更多的可能性。
據(jù)即夢(mèng)AI技術(shù)主頁(yè)的信息顯示,OmniHuman模型為閉源模型,這意味著它不會(huì)對(duì)外公開下載。這一決策可能是為了防止該技術(shù)被不當(dāng)利用。同時(shí),從技術(shù)主頁(yè)展示的演示效果來看,OmniHuman的生成效果已經(jīng)相當(dāng)自然,令人印象深刻。
盡管OmniHuman模型已經(jīng)表現(xiàn)出色,但即夢(mèng)AI的相關(guān)負(fù)責(zé)人透露,該模型在生成影視真實(shí)級(jí)別的視頻上仍存在一定的提升空間。因此,由該模型支持的多模態(tài)視頻生成功能將在即夢(mèng)平臺(tái)上以小范圍內(nèi)測(cè)的形式進(jìn)行調(diào)優(yōu)調(diào)整,并逐步向用戶開放。
為了確保AI技術(shù)的正面應(yīng)用,即夢(mèng)AI還宣布將對(duì)此功能設(shè)置嚴(yán)格的安全審核機(jī)制,并對(duì)輸出的視頻標(biāo)注水印以作提醒。這一舉措旨在保障視頻創(chuàng)作者能夠更好地實(shí)現(xiàn)想象力的表達(dá),同時(shí)防止技術(shù)被濫用。
隨著OmniHuman模型的逐步推廣和應(yīng)用,我們有理由相信,AI視頻生成技術(shù)將迎來一個(gè)全新的發(fā)展階段,為視頻創(chuàng)作者提供更多元化、更高效的創(chuàng)作工具。