ITBear旗下自媒體矩陣:

谷歌Gemini2.0震撼發(fā)布,AI Agent新時代正式啟航?

   時間:2025-01-23 20:13:41 來源:ITBEAR編輯:快訊團(tuán)隊 發(fā)表評論無障礙通道

在科技巨頭紛紛加速人工智能領(lǐng)域布局的背景下,谷歌于近日深夜震撼發(fā)布其最新力作——Gemini2.0,一款被標(biāo)榜為“迄今為止最尖端、功能最全面的AI模型”。此次發(fā)布不僅彰顯了谷歌在AI技術(shù)上的深厚積累,更預(yù)示著AI技術(shù)向“Agent”時代邁出了重要一步。

Gemini2.0的最大突破在于其實(shí)現(xiàn)了原生多模態(tài)輸入輸出功能,這一創(chuàng)新使得模型能夠同時處理圖片、視頻、音頻等多種格式的數(shù)據(jù),并生成相應(yīng)的輸出內(nèi)容。這種能力不僅極大地拓寬了AI的應(yīng)用場景,還提升了用戶體驗的豐富性和互動性。

在Gemini2.0發(fā)布之前,谷歌曾推出一款名為Gemini-exp-1206的模型,該模型因能夠處理高達(dá)200萬個標(biāo)記(相當(dāng)于一個多小時的視頻)而廣受關(guān)注,并在Livebench排名中僅次于OpenAI的模型,展現(xiàn)了其強(qiáng)大的數(shù)據(jù)處理能力。而Gemini2.0的出現(xiàn),更是將這種能力推向了新的高度。

據(jù)谷歌DeepMind的CEO德米斯·哈薩比斯介紹,Gemini2.0在保持成本效率、性能效率和速度的同時,整體性能相較于Gemini 1.5 Pro有了顯著提升。在速度方面,Gemini2.0的處理速度是1.5 Pro的兩倍,這意味著用戶將享受到更加流暢和高效的AI服務(wù)。

基于Gemini2.0的強(qiáng)大架構(gòu),谷歌推出了三款全新的AI智能體原型:通用大模型助手Project Astra、瀏覽器助手Project Mariner以及編程助手Jules。這三款智能體分別針對不同的應(yīng)用場景,為用戶提供全方位、個性化的AI服務(wù)。

Project Astra作為谷歌最早對外發(fā)布的AI助手,具備實(shí)時語音和視覺處理能力,能夠通過手機(jī)或谷歌眼鏡進(jìn)行跨文本、音頻、視頻的多模態(tài)實(shí)時推理。此次升級后的Astra在對話、工具調(diào)用、記憶和延遲方面都有了顯著提升,能夠更好地理解不同口音和不常見詞匯,使用Google搜索、鏡頭和地圖等工具,提供長達(dá)10分鐘的會話記憶,并以接近人類正常對話的速度作出反饋。

Project Mariner則是一個旨在探索人機(jī)交互未來的瀏覽器助手。它能夠理解和推理瀏覽器屏幕上的信息,包括像素、文本、代碼、圖像和表單等,并通過實(shí)驗性的Chrome擴(kuò)展程序使用這些信息完成任務(wù)。例如,它可以登錄雜貨店網(wǎng)站購物,查找航班和酒店,購買家居用品等,極大地提高了用戶的工作效率。

而Jules則是一款專為編程人員設(shè)計的助手。它能夠直接集成到GitHub工作流程中,查看用戶已有的代碼,并直接在GitHub中進(jìn)行更改,解決開發(fā)者在編程過程中遇到的難題。這一功能不僅節(jié)省了開發(fā)者的時間,還提高了代碼的質(zhì)量和效率。

Gemini2.0還在游戲、學(xué)術(shù)研究、機(jī)器人等領(lǐng)域進(jìn)行了嘗試。谷歌與Supercell等游戲開發(fā)商合作,探索智能體在游戲中的應(yīng)用;推出的Deep Research則如同學(xué)術(shù)研究助手,能夠直接生成論文;同時,谷歌還將Gemini 2.0的空間推理能力應(yīng)用于機(jī)器人身上,幫助機(jī)器人實(shí)現(xiàn)更加智能化的操作。

在音頻和圖像生成方面,Gemini2.0同樣展現(xiàn)出了強(qiáng)大的實(shí)力。它能夠生成和修改圖像,處理照片和視頻,回答相關(guān)問題,并用不同口音和語言的聲音朗讀文本。為了防止濫用,谷歌還使用SynthID技術(shù)對所有生成的音頻和圖像進(jìn)行水印標(biāo)記。

Gemini2.0的強(qiáng)大性能得益于谷歌定制的硬件第六代TPU Trillium的支持。與前代產(chǎn)品相比,Trillium在訓(xùn)練性能、推理吞吐量、峰值計算性能等方面都有了顯著提升,為Gemini2.0的運(yùn)行提供了堅實(shí)的硬件基礎(chǔ)。

目前,用戶已經(jīng)可以通過PC端優(yōu)先體驗Gemini2.0 Flash實(shí)驗版,而移動版也將在不久的將來推出。明年1月,谷歌還將推出Gemini 2.0 Flash多模式版本,并推出更多Gemini 2.0模型尺寸,以滿足不同用戶的需求。

對于此次發(fā)布,谷歌和Alphabet的首席執(zhí)行官桑達(dá)爾·皮查伊表示,如果Gemini 1.0是關(guān)于組織和理解信息的,那么Gemini 2.0就是為了讓信息更加有用。而“Agent”正是人工智能時代下一個大方向,它們能夠更好地了解用戶周圍的世界,提前思考多個步驟,并在用戶的監(jiān)督下代表用戶采取行動。

谷歌表示,他們正在將AI融入所擁有的所有產(chǎn)品中,并準(zhǔn)備將Gemini 2.0的先進(jìn)推理能力引入AI Overviews,處理更復(fù)雜的主題和多步驟問題。谷歌的愿景是在2025年開啟真正的“AI智能體時代”,為用戶提供更加智能、便捷和個性化的服務(wù)。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version