【ITBEAR】中國(guó)電信人工智能研究院(簡(jiǎn)稱TeleAI)近期在語音識(shí)別技術(shù)領(lǐng)域取得了顯著進(jìn)展。繼今年5月發(fā)布支持30種方言的星辰超多方言語音識(shí)別大模型之后,該機(jī)構(gòu)在短短半年內(nèi)再次突破了技術(shù)瓶頸。
最新消息顯示,星辰語音大模型現(xiàn)已成功攻克湛江話、宜賓話、洛陽話、煙臺(tái)話等多種方言,將其支持的方言種類從原有的30種擴(kuò)展至40種。更為該模型還引入了英文識(shí)別功能,進(jìn)一步提升了其多語言處理能力。
在傳統(tǒng)的語音識(shí)別模型訓(xùn)練中,通常需要大量有標(biāo)注的數(shù)據(jù)。然而,方言語音數(shù)據(jù)往往存在無標(biāo)注數(shù)據(jù)豐富而有標(biāo)注數(shù)據(jù)稀缺的問題。針對(duì)這一挑戰(zhàn),TeleAI采用了一種創(chuàng)新的“預(yù)訓(xùn)練+微調(diào)”模型方案。
具體而言,該方案首先利用海量無標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,構(gòu)建出一個(gè)基礎(chǔ)的語音識(shí)別模型。隨后,通過少量有標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),使模型能夠更準(zhǔn)確地識(shí)別各種方言。這種訓(xùn)練方法不僅高度契合方言場(chǎng)景的需求,還大幅降低了對(duì)人工標(biāo)注數(shù)據(jù)的依賴。
TeleAI在模型結(jié)構(gòu)和成本優(yōu)化方面也取得了顯著成果。通過一系列創(chuàng)新技術(shù),該機(jī)構(gòu)成功將對(duì)人工標(biāo)注數(shù)據(jù)的需求量降低了約50倍,同時(shí)確保了模型效果與有監(jiān)督訓(xùn)練的方言模型水平相當(dāng)。
為了進(jìn)一步推動(dòng)語音識(shí)別技術(shù)的發(fā)展和應(yīng)用,TeleAI還將其研究成果在GitHub上進(jìn)行了開源共享。開源地址為:https://github.com/Tele-AI/TeleSpeech-ASR。這一舉措有望為全球的語音識(shí)別研究者和開發(fā)者提供有力的支持和參考。