谷歌在人工智能領(lǐng)域再次邁出重要一步,發(fā)布了其最新一代模型Gemini 2.0的首款變體——Gemini 2.0 Flash。據(jù)谷歌官方博客透露,Gemini 2.0 Flash在關(guān)鍵基準(zhǔn)測(cè)試中的表現(xiàn)是1.5 Pro版本的兩倍之快,這一進(jìn)步無(wú)疑為人工智能技術(shù)的發(fā)展注入了新的活力。
Gemini 2.0 Flash不僅在處理速度上有了顯著提升,更引入了多模態(tài)輸出的功能。這意味著用戶(hù)現(xiàn)在可以獲得混合了文本、原生生成的圖像以及可操控的文本轉(zhuǎn)語(yǔ)音(TTS)多語(yǔ)言音頻的綜合性輸出。該模型還能直接調(diào)用谷歌搜索、執(zhí)行代碼以及第三方用戶(hù)自定義函數(shù)等工具,為用戶(hù)提供了前所未有的便捷性。
為了進(jìn)一步推動(dòng)動(dòng)態(tài)和交互式應(yīng)用程序的開(kāi)發(fā),谷歌還推出了Multimodal Live API。該API支持實(shí)時(shí)音頻和視頻流輸入,并能同時(shí)使用多個(gè)組合工具,為用戶(hù)帶來(lái)更加豐富的交互體驗(yàn)。
在AI Agent方面,谷歌同樣帶來(lái)了令人矚目的更新。其中,通用AI Agent Project Astra的最新版本尤為引人注目。這個(gè)全視、全聽(tīng)和全記憶的AI助手現(xiàn)在能夠記住長(zhǎng)達(dá)10分鐘的視頻內(nèi)容,并能根據(jù)用戶(hù)的對(duì)話(huà)和個(gè)人偏好提供更加個(gè)性化的服務(wù)。Project Astra還支持多種語(yǔ)言和混合語(yǔ)言交談,能夠更好地理解口音和不常見(jiàn)的單詞。通過(guò)新的流媒體功能和本機(jī)音頻理解,Agent能以接近人類(lèi)對(duì)話(huà)的延遲理解語(yǔ)言,使對(duì)話(huà)更加自然流暢。
另一個(gè)值得一提的AI Agent是Project Mariner,它能夠完成多步驟的復(fù)雜任務(wù)。通過(guò)理解和推理瀏覽器屏幕上的信息,包括像素、文本、圖像和表單等,Project Mariner能夠自動(dòng)執(zhí)行一系列任務(wù)。雖然目前仍需人類(lèi)介入,但這一技術(shù)已經(jīng)表明了在瀏覽器中導(dǎo)航的可行性。在WebVoyager基準(zhǔn)測(cè)試中,Project Mariner作為單一Agent設(shè)置實(shí)現(xiàn)了83.5%的最佳工作結(jié)果。
谷歌還在探索AI編程Agent Jules的更新。Jules是一種直接集成到GitHub工作流程中的實(shí)驗(yàn)性AI驅(qū)動(dòng)的編程Agent,能夠解決問(wèn)題、制定計(jì)劃并執(zhí)行,所有過(guò)程都在開(kāi)發(fā)人員的指導(dǎo)和監(jiān)督下進(jìn)行。這一領(lǐng)域的長(zhǎng)期目標(biāo)是構(gòu)建在所有領(lǐng)域都有幫助的AI Agent。
谷歌還構(gòu)建了游戲Agent,幫助用戶(hù)在視頻游戲的虛擬世界中導(dǎo)航。這些Agent能夠僅根據(jù)屏幕上的動(dòng)作來(lái)推理游戲,并在實(shí)時(shí)對(duì)話(huà)中提供下一步操作的建議。目前,谷歌正在與游戲開(kāi)發(fā)商合作,探索這些Agent在各種游戲中解釋規(guī)則和挑戰(zhàn)的能力。
在硬件方面,谷歌也宣布了其最強(qiáng)AI芯片Trillium TPU的普遍可用性。這款第六代TPU相比上一代芯片在訓(xùn)練性能、推理吞吐量、能效等方面都有了顯著提升。Trillium TPU是谷歌云AI超級(jí)計(jì)算機(jī)的關(guān)鍵組成部分,其架構(gòu)采用了性能優(yōu)化的硬件、開(kāi)放的軟件以及領(lǐng)先的機(jī)器學(xué)習(xí)框架和靈活的消費(fèi)級(jí)模型的集成系統(tǒng)。這一硬件的升級(jí)無(wú)疑為Gemini 2.0等模型的訓(xùn)練和推理提供了強(qiáng)大的支持。