【ITBEAR】訊飛開放平臺(tái)今日宣布重大進(jìn)展,其全新研發(fā)的訊飛星火多模態(tài)交互大模型已正式上線。這一技術(shù)突破實(shí)現(xiàn)了從單一的語音交互到音視頻流實(shí)時(shí)多模態(tài)交互的跨越,為用戶帶來更為豐富和自然的交互體驗(yàn)。
訊飛星火多模態(tài)交互大模型首次引入了超擬人數(shù)字人技術(shù),該技術(shù)使得數(shù)字人的軀干和四肢動(dòng)作能夠與語音內(nèi)容精準(zhǔn)匹配,快速生成相應(yīng)的表情和動(dòng)作,從而讓AI形象更加栩栩如生。通過統(tǒng)一文本、語音和表情的表達(dá),該模型在跨模態(tài)的語義一致性上取得了顯著成效,使得大模型的情感表達(dá)更為真實(shí)和連貫。
在交互速度方面,該模型同樣表現(xiàn)出色。它采用了統(tǒng)一的神經(jīng)網(wǎng)絡(luò),直接實(shí)現(xiàn)了語音到語音的端到端建模,從而大大提升了響應(yīng)速度和流暢性。該模型還能夠敏銳地感知用戶的情緒變化,并根據(jù)指令自由調(diào)整聲音的節(jié)奏、大小和人設(shè),為用戶提供更加個(gè)性化的交互體驗(yàn)。
訊飛星火多模態(tài)交互大模型還支持多模態(tài)視覺交互。它不僅能夠“聽懂世界”,更能“認(rèn)清萬物”,通過全面感知具體的背景場(chǎng)景、物流狀態(tài)等信息,對(duì)任務(wù)的理解更加精準(zhǔn)。同時(shí),該模型還能夠綜合判斷語音、手勢(shì)、行為和情緒等多種信息,作出更為合適的響應(yīng)。
據(jù)此前報(bào)道,用戶已經(jīng)可以與數(shù)字人進(jìn)行自然的語音和視頻通話。在通話過程中,數(shù)字人不僅能夠?qū)崿F(xiàn)與用戶的自然語音對(duì)話,其人物表情等也能夠與說話語句相匹配。星火超擬人數(shù)字人還支持多模態(tài)交互功能,這使得數(shù)字人能夠識(shí)別攝像頭中的內(nèi)容,如識(shí)別孫悟空和奧特曼站在一起、識(shí)別面霜的品牌和作用以及花的品類等。