【ITBEAR】近日,科技媒體MSPoweruser報(bào)道了一項(xiàng)微軟新獲得的專利,該專利描述了一種基于用戶實(shí)時(shí)語音輸入生成圖片的技術(shù)。據(jù)悉,這項(xiàng)專利共計(jì)20頁(yè),于2023年4月5日提交申請(qǐng),并于10月10日獲得批準(zhǔn)。
根據(jù)專利描述,此系統(tǒng)能夠在會(huì)議或講座等場(chǎng)合實(shí)時(shí)捕捉音頻,通過語言模型進(jìn)行處理并總結(jié)內(nèi)容,隨后生成相應(yīng)的AI圖像。此過程包含三個(gè)主要步驟:捕捉音頻、處理文本以及生成圖像。
具體來說,用戶通過麥克風(fēng)發(fā)言,系統(tǒng)實(shí)時(shí)記錄并轉(zhuǎn)化為文本。然后,系統(tǒng)分段記錄文本,并使用語言模型對(duì)每段內(nèi)容進(jìn)行總結(jié)。最后,根據(jù)這些總結(jié)生成的提示,系統(tǒng)創(chuàng)建出AI生成的圖像,并在屏幕上實(shí)時(shí)顯示。
預(yù)計(jì)這一功能將主要應(yīng)用于Microsoft Teams,隨著演講者話題的變化,實(shí)時(shí)生成的圖像也會(huì)隨之更新,從而為用戶帶來更加豐富的視覺溝通體驗(yàn)。微軟表示,這種圖像的使用有助于澄清概念,尤其適合需要通過視覺輔助來學(xué)習(xí)的用戶。
此專利的獲得展示了微軟在AI技術(shù)領(lǐng)域的持續(xù)創(chuàng)新和進(jìn)步,未來有望在會(huì)議、教育等多個(gè)領(lǐng)域發(fā)揮重要作用,為用戶提供更加直觀、高效的信息傳遞和溝通方式。