近期,大模型評(píng)估領(lǐng)域迎來(lái)了新變革,為了杜絕“刷榜”行為,測(cè)評(píng)機(jī)構(gòu)創(chuàng)新性地引入了“角斗場(chǎng)”(Arena)模式。這一模式通過(guò)隨機(jī)選取模型進(jìn)行“打擂臺(tái)”,全程向用戶開放,依據(jù)直接提問(wèn)和累積打分來(lái)排名,從而更準(zhǔn)確地衡量模型的實(shí)際能力,直觀反映其在真實(shí)應(yīng)用場(chǎng)景中的表現(xiàn)。
在最新發(fā)布的Flageval大模型角斗場(chǎng)榜單上,騰訊混元多模態(tài)圖文理解大模型憑借卓越表現(xiàn),榮登國(guó)內(nèi)榜首,并在兩個(gè)關(guān)鍵榜單中與GPT4o、Claude等國(guó)際知名模型并肩,位列第一梯隊(duì)。
Flageval大模型角斗場(chǎng)由北京智源研究院發(fā)起,接入了全球主流的大模型,并長(zhǎng)期對(duì)這些模型進(jìn)行監(jiān)測(cè)與評(píng)估。該榜單的權(quán)威性不言而喻,成為衡量模型性能的重要參考。
騰訊混元作為國(guó)內(nèi)首個(gè)采用MoE架構(gòu)的多模態(tài)大模型,在架構(gòu)、訓(xùn)練方法以及數(shù)據(jù)處理方面均實(shí)現(xiàn)了創(chuàng)新與深度優(yōu)化。其支持任意長(zhǎng)寬比及最高7K分辨率圖片的理解,展現(xiàn)出強(qiáng)大的多模態(tài)場(chǎng)景理解能力。與許多主要在開源基準(zhǔn)測(cè)試中調(diào)優(yōu)的多模態(tài)模型不同,騰訊混元更加注重模型的通用性、實(shí)用性和可靠性。
在應(yīng)用層面,騰訊混元多模態(tài)理解模型針對(duì)通用場(chǎng)景和海量應(yīng)用進(jìn)行了全面優(yōu)化,積累了大量相關(guān)問(wèn)答數(shù)據(jù),涵蓋了圖片基礎(chǔ)理解、內(nèi)容創(chuàng)作、推理分析、知識(shí)問(wèn)答、OCR文檔解析、學(xué)科答題等多個(gè)領(lǐng)域。該模型能夠完成描述圖片內(nèi)容、將圖片轉(zhuǎn)換為文本表格、解釋代碼、分析賬單、解答數(shù)學(xué)題等任務(wù),并在騰訊元寶APP上線,同時(shí)可通過(guò)騰訊云API調(diào)用。騰訊上個(gè)月還發(fā)布了旗艦多模態(tài)理解模型Hunyuan-turbo-vision,其能力更為強(qiáng)大。
作為實(shí)用級(jí)大模型,騰訊混元多模態(tài)理解模型已在騰訊的多項(xiàng)業(yè)務(wù)中得到了廣泛應(yīng)用。在QQ、QQ瀏覽器、騰訊文檔、騰訊游戲、騰訊廣告、微信讀書、微信小程序等平臺(tái)上,用戶都能感受到其帶來(lái)的便利。例如,在QQ說(shuō)說(shuō)中,用戶可以享受自動(dòng)為照片配文的便捷服務(wù);在QQ瀏覽器中,用戶只需輸入照片,AI便能自動(dòng)識(shí)別圖片并回答問(wèn)題;在小程序教育平臺(tái)中,AI可以根據(jù)圖片自動(dòng)編寫程序,大幅提升開發(fā)效率。
QQ說(shuō)說(shuō)AI配文示例
QQ瀏覽器AI解題答疑示例
小程序教育平臺(tái)-看圖寫小程序示例
在騰訊廣告場(chǎng)景中,騰訊混元大模型憑借其強(qiáng)大的內(nèi)容理解能力,為廣告的個(gè)性化推薦、定位及效果預(yù)測(cè)提供了有力支持,不僅提升了廣告的精準(zhǔn)度,還優(yōu)化了用戶的瀏覽體驗(yàn)。