【ITBEAR】阿里云百煉平臺近期迎來重大更新,正式推出了Qwen2.5-Turbo模型,為所有用戶開放調(diào)用API接口。這一創(chuàng)新舉措不僅將百萬tokens的處理費(fèi)用降至0.3元,還慷慨地贈送每位用戶1000萬tokens的免費(fèi)額度。
Qwen2.5-Turbo模型以其卓越的能力脫穎而出,支持處理長達(dá)100萬的超長上下文,相當(dāng)于100萬英文單詞或150萬漢字的規(guī)模。在多個長文本評測集中,其性能表現(xiàn)甚至超越了GPT-4,展現(xiàn)出強(qiáng)大的競爭力。
該模型的應(yīng)用場景廣泛,包括長篇小說深入理解、大型代碼倉庫的輔助開發(fā)以及多篇學(xué)術(shù)論文的閱讀理解等。用戶能夠一次性處理10本長篇小說、150小時的演講稿或3萬行代碼,極大地提升了工作效率。
具體而言,Qwen2.5-Turbo在超長文本檢索任務(wù)中表現(xiàn)出色,1M長度的文本檢索準(zhǔn)確率高達(dá)100%。在長文本評測集RULER上,它獲得了93.1的高分,再次證明了其超越GPT-4的實(shí)力。在LV-eval、LongBench-Chat等更貼近真實(shí)場景的長文本任務(wù)中,Qwen2.5-Turbo也在多個維度上超越了GPT-4o-mini。
Qwen2.5-Turbo在短文本基準(zhǔn)測試中的表現(xiàn)同樣亮眼。在MMU、LiveBench等測試中,它顯著超越了之前上下文長度為1M tokens的開源模型,展現(xiàn)出全面的優(yōu)秀性能。
在推理速度方面,Qwen2.5-Turbo也進(jìn)行了大幅優(yōu)化。團(tuán)隊(duì)通過采用稀疏注意力機(jī)制,成功將注意力部分的計算量壓縮了約12.5倍。這使得處理1M tokens上下文時的首字返回時間從4.9分鐘大幅縮短至68秒,速度提升了4.3倍。
盡管Qwen2.5-Turbo在長文本任務(wù)處理方面取得了顯著成就,但通義千問團(tuán)隊(duì)并未滿足于此。他們坦言,長文本任務(wù)處理仍面臨諸多挑戰(zhàn),并表示將不斷探索長序列人類偏好對齊、優(yōu)化推理效率以及研發(fā)更大、更強(qiáng)的長文本模型,以持續(xù)提升用戶體驗(yàn)。