【ITBEAR科技資訊】7月31日消息,OpenAI于當(dāng)?shù)貢r(shí)間30日宣布,即日起GPT-4o的語音模式(注:Alpha版本)將對(duì)部分ChatGPT Plus用戶開放,計(jì)劃在今年秋季將該功能逐步推廣至所有ChatGPT Plus訂閱用戶。
據(jù)ITBEAR科技資訊了解,OpenAI首席技術(shù)官米拉?穆拉蒂(Mira Murati)在早前的演講中闡述了GPT-4o的技術(shù)特點(diǎn)。她指出,GPT-4o是一個(gè)全新的跨文本、視覺和音頻的端到端統(tǒng)一模型,其特色在于所有的輸入與輸出都由單一的神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)處理。由于這是OpenAI首個(gè)融合多種模式的模型,因此在功能和局限性的探索上,他們還處于初步階段。
原計(jì)劃于今年6月底邀請(qǐng)小部分ChatGPT Plus用戶測(cè)試GPT-4o語音模式的OpenAI,因需要更多時(shí)間來完善模型并提升其特定內(nèi)容的檢測(cè)和拒絕能力,故官方在6月宣布了測(cè)試推遲的消息。
早期信息顯示,相較于GPT-3.5模型2.8秒的平均語音反饋延遲,GPT-4的5.4秒延遲在語音交互上顯得不足。然而,新一代的GPT-4o預(yù)計(jì)將大幅降低這一延遲,實(shí)現(xiàn)更為流暢的對(duì)話體驗(yàn)。
GPT-4o語音模式的亮點(diǎn)在于其迅速的反應(yīng)速度和高度逼真的聲音。OpenAI更是聲稱,該模式能夠感知語音中的情感語調(diào),包括悲傷、興奮甚至是歌唱。
OpenAI 發(fā)言人林賽?麥卡勒姆(Lindsay McCallum)明確表示:“ChatGPT不會(huì)冒充他人的聲音,無論是個(gè)人還是公眾人物,且系統(tǒng)會(huì)阻止與預(yù)設(shè)聲音不符的輸出?!边@一聲明為GPT-4o在語音交互的真實(shí)性和安全性上提供了保障。