【ITBEAR】騰訊近日發(fā)布了一款名為Hunyuan3D-1.0的開源大模型,據(jù)官方介紹,這是首個(gè)能同時(shí)支持文本和圖像生成的三維開源模型。
該模型采用了一種創(chuàng)新的兩階段生成方法,可以在保證高質(zhì)量和可控性的基礎(chǔ)上,僅需10秒就能生成3D資產(chǎn)。在第一階段,團(tuán)隊(duì)利用多視角擴(kuò)散模型,在約4秒內(nèi)快速生成包含豐富紋理和幾何信息的多視角圖像。這一步驟有效地將任務(wù)從單視角重建轉(zhuǎn)變?yōu)槎嘁暯侵亟?,從而提高了生成的?zhǔn)確性和效率。
進(jìn)入第二階段,團(tuán)隊(duì)引入了一種前饋重建模型,該模型能夠利用第一階段生成的多視角圖像,在約3秒內(nèi)完成3D資產(chǎn)的快速且精確重建。這一重建模型不僅學(xué)會(huì)了處理多視角擴(kuò)散過程中引入的噪聲和不一致性,還能有效利用條件圖像中的信息,高效地恢復(fù)3D結(jié)構(gòu)。
官方強(qiáng)調(diào),Hunyuan3D-1.0模型具有強(qiáng)大的泛化能力和可控性,能夠重建各種尺度的物體,無論是宏偉的建筑還是精致的工具花草,都能得到高質(zhì)量的重建效果。
為了方便開發(fā)者和研究者使用和學(xué)習(xí)該模型,騰訊已經(jīng)將Hunyuan3D-1.0在Github和Huggingface平臺(tái)上開源,并提供了詳細(xì)的研究論文。感興趣的讀者可以通過以下鏈接獲取更多信息:
Github:https://github.com/Tencent/Hunyuan3D-1
Huggingface:https://huggingface.co/tencent/Hunyuan3D-1
研究論文:https://3d.hunyuan.tencent.com/hunyuan3d.pdf