滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

海螺語(yǔ)音挑戰(zhàn)ElevenLabs，多語(yǔ)言合成能力究竟如何？

時(shí)間：2025-01-22 15:24:31 來(lái)源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

在職場(chǎng)溝通中，一個(gè)意外的挑戰(zhàn)讓一位員工不得不面對(duì)香港客戶的質(zhì)疑——因項(xiàng)目延期，他急需在線上以完美的解釋挽回信任。而這段解釋中的粵語(yǔ)與英語(yǔ)自如切換的語(yǔ)音，卻并非出自人類之口，而是由海螺語(yǔ)音這一AI技術(shù)所生成。這一技術(shù)的出現(xiàn)，不僅令人驚嘆，更預(yù)示著AI語(yǔ)音領(lǐng)域的一次重大突破。

海螺語(yǔ)音的背后，是MiniMax公司強(qiáng)大的技術(shù)支持。今年1月，MiniMax在推出基礎(chǔ)語(yǔ)言大模型和視覺多模態(tài)大模型后，再次升級(jí)了其語(yǔ)音大模型T2A-01系列。這一系列的推出，標(biāo)志著海螺AI語(yǔ)音板塊的正式開啟。相較于舊版本，T2A-01系列在語(yǔ)音生成能力上有了顯著提升，不僅音質(zhì)清晰、韻律自然，還能精準(zhǔn)表達(dá)情緒，且支持包括中文、粵語(yǔ)、英語(yǔ)在內(nèi)的17種語(yǔ)言及上百種預(yù)置音色。

從海螺語(yǔ)音生成的音頻中，可以清晰感受到其處理不同語(yǔ)種的能力，以及接近人聲的自然度。無(wú)需抽卡，就能達(dá)到如此穩(wěn)定的水平，這無(wú)疑是對(duì)當(dāng)前AI語(yǔ)音技術(shù)的一次革新。為了更直觀地展示海螺語(yǔ)音的實(shí)力，我們不妨將其與其他語(yǔ)音生成產(chǎn)品進(jìn)行對(duì)比。

以難度極高的繞口令“施氏食獅史”為例，ChatTTS生成的內(nèi)容粘連感強(qiáng)，幾乎聽不出在讀什么；而ElevenLabs雖然字與字之間能夠區(qū)分開，但存在“呱呱叫”的模型幻覺問題。相比之下，海螺語(yǔ)音的表現(xiàn)則更為出色。整段聲音自然流暢，雖然部分詞語(yǔ)存在斷句問題，但在大部分短句中已有顯著驚艷的表現(xiàn)，對(duì)音調(diào)、分詞錯(cuò)落、節(jié)奏和斷句的處理都反映出其背后的理解能力。

海螺語(yǔ)音的多語(yǔ)言合成能力，足以與ElevenLabs等領(lǐng)先產(chǎn)品相媲美。MiniMax團(tuán)隊(duì)采用與Seed-TTS論文相同的評(píng)測(cè)集和評(píng)測(cè)工具進(jìn)行計(jì)算，結(jié)果顯示，海螺語(yǔ)音在中文的字錯(cuò)率和相似度上表現(xiàn)最佳，英文的字錯(cuò)率、相似度也接近真實(shí)錄音。海螺語(yǔ)音還建立了多語(yǔ)種評(píng)測(cè)集，對(duì)17個(gè)語(yǔ)種進(jìn)行客觀評(píng)測(cè)，結(jié)果顯示其在多個(gè)語(yǔ)種上的相似度、正確率均大幅領(lǐng)先。

海螺語(yǔ)音不僅在多語(yǔ)言合成上表現(xiàn)出色，其精準(zhǔn)的情緒控制和音色選擇更是令人稱奇。為了讓聲音更加鮮活、情感表達(dá)更加精準(zhǔn)，MiniMax對(duì)長(zhǎng)達(dá)超千萬(wàn)小時(shí)的高質(zhì)量音頻數(shù)據(jù)進(jìn)行加工訓(xùn)練，實(shí)現(xiàn)了高音質(zhì)、情感豐富的聲音效果。用戶既可以讓系統(tǒng)自動(dòng)檢測(cè)情緒，也可以明確指定情緒，從而生成能夠精準(zhǔn)捕捉人類深層情感的語(yǔ)音輸出。海螺語(yǔ)音還預(yù)置了300+音色供用戶選擇，風(fēng)格多變，滿足有聲書、ASMR耳語(yǔ)、新聞播報(bào)等多種場(chǎng)景需求。

海螺語(yǔ)音還實(shí)現(xiàn)了分段控制不同情緒的功能。例如，在表達(dá)老人害怕的情緒時(shí)，可以進(jìn)一步從聲音中感受到從害怕到難過再到開心的完整情緒變化。這種對(duì)輸入文字的精準(zhǔn)理解和對(duì)輸出聲音的精細(xì)控制，使得海螺語(yǔ)音在商業(yè)化場(chǎng)景和日常對(duì)話表達(dá)中都能游刃有余。

海螺語(yǔ)音的成功，離不開MiniMax公司對(duì)多模態(tài)模型能力的長(zhǎng)期投入和持續(xù)發(fā)力。雖然音頻在多模態(tài)模型能力開發(fā)順序上似乎難以排在文字、圖片、視頻之前，但MiniMax卻憑借其在語(yǔ)音大模型上的深厚積累和技術(shù)突破，成功推出了海螺語(yǔ)音這一領(lǐng)先產(chǎn)品。從文本、視頻到語(yǔ)音能力的全面更新，MiniMax和海螺AI正不斷給人帶來(lái)驚喜，推動(dòng)著AI技術(shù)的不斷前進(jìn)。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

01-22

字節(jié)跳動(dòng)否認(rèn)120億美元投建AI基礎(chǔ)設(shè)施傳聞，稱具體規(guī)劃有出入

01-22

RockAI自研Yan架構(gòu)大模型，實(shí)力登榜“最佳大模型TOP20”

01-22

字節(jié)跳動(dòng)AI大投入傳聞遭官方否認(rèn)，真相究竟如何？

01-22

豆包APP升級(jí)實(shí)時(shí)語(yǔ)音通話，中文對(duì)話能力飛躍，人機(jī)對(duì)話難分辨！

更新后，豆包中文場(chǎng)景的對(duì)話能力在語(yǔ)音真實(shí)感和“喜怒哀樂”的情緒表現(xiàn)上近乎達(dá)到“人機(jī)難辨”的AI交互效果，可以模仿不同聲線，并且在“邏輯思考”和“情緒感知”上有明顯提升。豆包相關(guān)負(fù)責(zé)人介紹，交付體驗(yàn)上，豆包語(yǔ)…

01-22

字節(jié)跳動(dòng)120億美金投AI？官方：不實(shí)傳聞！

北京時(shí)間1月22日，有消息稱字節(jié)跳動(dòng)今年在人工智能基礎(chǔ)設(shè)施上投入超120億美元，其中為2025年購(gòu)買AI芯片準(zhǔn)備了400億人民幣，是2024年支出的兩倍。另計(jì)劃在海外投資約68億美元。對(duì)此，字節(jié)跳動(dòng)相關(guān)人士回…

01-22

谷歌再擲10億美元加碼投資，Anthropic成OpenAI強(qiáng)勁對(duì)手？

01-22

微軟調(diào)整協(xié)議，OpenAI獲準(zhǔn)使用多家云服務(wù)

微軟改變了與OpenAI的多年協(xié)議，現(xiàn)在允許這家人工智能初創(chuàng)公司使用競(jìng)爭(zhēng)對(duì)手提供的云計(jì)算服務(wù)。微軟周二在聲明中表示，該協(xié)議將持續(xù)到2030年，當(dāng)OpenAI尋求計(jì)算能力以訓(xùn)練和運(yùn)行人工智能模型時(shí)，微軟將擁有優(yōu)…

01-22

網(wǎng)易有道開源“子曰-o1”，打造國(guó)內(nèi)首個(gè)分步式講解推理模型

01-22

DeepSeek-R1橫空出世，能否挑戰(zhàn)OpenAI o1霸主地位？

01-22

字節(jié)跳動(dòng)豆包大模型1.5 Pro重磅發(fā)布，綜合能力超越GPT-4o等模型

01-22

字節(jié)跳動(dòng)120億投資AI？官方：消息不實(shí)

01-22

字節(jié)跳動(dòng)否認(rèn)120億美元投AI基礎(chǔ)設(shè)施，真相如何？

01-22

榮耀前CEO趙明離職背后：上市前夕緣何失去董事會(huì)信任？

01-22

陳天橋布局AI新戰(zhàn)略：盛大以研究為魂，雙研究院驅(qū)動(dòng)未來(lái)

01-22

點(diǎn)擊查看更多 +

全站最新

馬云間接持股，湖南新成立食品科技公司聚焦食品生產(chǎn)與互聯(lián)網(wǎng)銷售

匯川技術(shù)濟(jì)南子公司注冊(cè)資本大幅提升至5.5億

小米汽車新專利：車外便捷取電結(jié)構(gòu)獲授權(quán)

德業(yè)股份長(zhǎng)沙布局新動(dòng)作，成立德業(yè)供應(yīng)鏈有限公司

*ST人樂全資控股新商貿(mào)公司，深圳僑優(yōu)商貿(mào)正式亮相！

立訊精密河南布局新動(dòng)作，全資成立汽車零部件研發(fā)制造公司

熱門內(nèi)容

本欄最新

字節(jié)跳動(dòng)否認(rèn)120億美元投建AI基礎(chǔ)設(shè)施傳聞，稱具體規(guī)劃有出入

RockAI自研Yan架構(gòu)大模型，實(shí)力登榜“最佳大模型TOP20”

字節(jié)跳動(dòng)AI大投入傳聞遭官方否認(rèn)，真相究竟如何？

網(wǎng)易有道開源“子曰-o1”，打造國(guó)內(nèi)首個(gè)分步式講解推理模型

DeepSeek-R1橫空出世，能否挑戰(zhàn)OpenAI o1霸主地位？

字節(jié)跳動(dòng)豆包大模型1.5 Pro重磅發(fā)布，綜合能力超越GPT-4o等模型

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

海螺語(yǔ)音挑戰(zhàn)ElevenLabs，多語(yǔ)言合成能力究竟如何？

海螺語(yǔ)音挑戰(zhàn)ElevenLabs，多語(yǔ)言合成能力究竟如何？