在職場(chǎng)溝通中,一個(gè)意外的挑戰(zhàn)讓一位員工不得不面對(duì)香港客戶的質(zhì)疑——因項(xiàng)目延期,他急需在線上以完美的解釋挽回信任。而這段解釋中的粵語(yǔ)與英語(yǔ)自如切換的語(yǔ)音,卻并非出自人類之口,而是由海螺語(yǔ)音這一AI技術(shù)所生成。這一技術(shù)的出現(xiàn),不僅令人驚嘆,更預(yù)示著AI語(yǔ)音領(lǐng)域的一次重大突破。
海螺語(yǔ)音的背后,是MiniMax公司強(qiáng)大的技術(shù)支持。今年1月,MiniMax在推出基礎(chǔ)語(yǔ)言大模型和視覺多模態(tài)大模型后,再次升級(jí)了其語(yǔ)音大模型T2A-01系列。這一系列的推出,標(biāo)志著海螺AI語(yǔ)音板塊的正式開啟。相較于舊版本,T2A-01系列在語(yǔ)音生成能力上有了顯著提升,不僅音質(zhì)清晰、韻律自然,還能精準(zhǔn)表達(dá)情緒,且支持包括中文、粵語(yǔ)、英語(yǔ)在內(nèi)的17種語(yǔ)言及上百種預(yù)置音色。
從海螺語(yǔ)音生成的音頻中,可以清晰感受到其處理不同語(yǔ)種的能力,以及接近人聲的自然度。無(wú)需抽卡,就能達(dá)到如此穩(wěn)定的水平,這無(wú)疑是對(duì)當(dāng)前AI語(yǔ)音技術(shù)的一次革新。為了更直觀地展示海螺語(yǔ)音的實(shí)力,我們不妨將其與其他語(yǔ)音生成產(chǎn)品進(jìn)行對(duì)比。
以難度極高的繞口令“施氏食獅史”為例,ChatTTS生成的內(nèi)容粘連感強(qiáng),幾乎聽不出在讀什么;而ElevenLabs雖然字與字之間能夠區(qū)分開,但存在“呱呱叫”的模型幻覺問題。相比之下,海螺語(yǔ)音的表現(xiàn)則更為出色。整段聲音自然流暢,雖然部分詞語(yǔ)存在斷句問題,但在大部分短句中已有顯著驚艷的表現(xiàn),對(duì)音調(diào)、分詞錯(cuò)落、節(jié)奏和斷句的處理都反映出其背后的理解能力。
海螺語(yǔ)音的多語(yǔ)言合成能力,足以與ElevenLabs等領(lǐng)先產(chǎn)品相媲美。MiniMax團(tuán)隊(duì)采用與Seed-TTS論文相同的評(píng)測(cè)集和評(píng)測(cè)工具進(jìn)行計(jì)算,結(jié)果顯示,海螺語(yǔ)音在中文的字錯(cuò)率和相似度上表現(xiàn)最佳,英文的字錯(cuò)率、相似度也接近真實(shí)錄音。海螺語(yǔ)音還建立了多語(yǔ)種評(píng)測(cè)集,對(duì)17個(gè)語(yǔ)種進(jìn)行客觀評(píng)測(cè),結(jié)果顯示其在多個(gè)語(yǔ)種上的相似度、正確率均大幅領(lǐng)先。
海螺語(yǔ)音不僅在多語(yǔ)言合成上表現(xiàn)出色,其精準(zhǔn)的情緒控制和音色選擇更是令人稱奇。為了讓聲音更加鮮活、情感表達(dá)更加精準(zhǔn),MiniMax對(duì)長(zhǎng)達(dá)超千萬(wàn)小時(shí)的高質(zhì)量音頻數(shù)據(jù)進(jìn)行加工訓(xùn)練,實(shí)現(xiàn)了高音質(zhì)、情感豐富的聲音效果。用戶既可以讓系統(tǒng)自動(dòng)檢測(cè)情緒,也可以明確指定情緒,從而生成能夠精準(zhǔn)捕捉人類深層情感的語(yǔ)音輸出。海螺語(yǔ)音還預(yù)置了300+音色供用戶選擇,風(fēng)格多變,滿足有聲書、ASMR耳語(yǔ)、新聞播報(bào)等多種場(chǎng)景需求。
海螺語(yǔ)音還實(shí)現(xiàn)了分段控制不同情緒的功能。例如,在表達(dá)老人害怕的情緒時(shí),可以進(jìn)一步從聲音中感受到從害怕到難過再到開心的完整情緒變化。這種對(duì)輸入文字的精準(zhǔn)理解和對(duì)輸出聲音的精細(xì)控制,使得海螺語(yǔ)音在商業(yè)化場(chǎng)景和日常對(duì)話表達(dá)中都能游刃有余。
海螺語(yǔ)音的成功,離不開MiniMax公司對(duì)多模態(tài)模型能力的長(zhǎng)期投入和持續(xù)發(fā)力。雖然音頻在多模態(tài)模型能力開發(fā)順序上似乎難以排在文字、圖片、視頻之前,但MiniMax卻憑借其在語(yǔ)音大模型上的深厚積累和技術(shù)突破,成功推出了海螺語(yǔ)音這一領(lǐng)先產(chǎn)品。從文本、視頻到語(yǔ)音能力的全面更新,MiniMax和海螺AI正不斷給人帶來(lái)驚喜,推動(dòng)著AI技術(shù)的不斷前進(jìn)。