阿里通義千問于近日正式宣布,開源了其最新的Qwen2.5-1M模型及其配套的推理框架。這一舉措標志著通義千問在人工智能領域邁出了重要一步。
據悉,通義千問此次發(fā)布的開源模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M兩個版本。尤為引人注目的是,這兩個版本首次將Qwen模型的上下文長度擴展到了1M(即100萬標記),這在業(yè)界尚屬首次。
為了幫助開發(fā)者更好地部署和應用這些模型,Qwen團隊還開源了基于vLLM的推理框架。該框架集成了稀疏注意力方法,使得在處理長達1M標記的輸入時,推理速度有了顯著提升,達到了3倍至7倍的增長。
在長上下文任務方面,Qwen2.5-1M系列模型展現(xiàn)出了強大的能力。在一項名為“大海撈針”的任務中,這些模型能夠準確地從1M長度的文檔中檢索出隱藏信息。盡管7B版本的模型在極少數(shù)情況下出現(xiàn)了錯誤,但整體上,其表現(xiàn)仍然令人矚目。
為了全面評估Qwen2.5-1M系列模型在長上下文任務中的表現(xiàn),研究團隊還選擇了RULER、LV-eval和LongbenchChat等多個測試集進行測試。測試結果顯示,這些模型在大多數(shù)任務中都顯著優(yōu)于之前的128K版本,特別是在處理超過64K長度的任務時,其優(yōu)勢更加明顯。
Qwen2.5-14B-Instruct-1M模型不僅在性能上擊敗了Qwen2.5-Turbo,還在多個數(shù)據集上穩(wěn)定超越了GPT-4o-mini。這一結果無疑為長上下文任務提供了更多開源模型的選擇。
除了長上下文任務外,Qwen2.5-1M系列模型在短序列任務上的表現(xiàn)同樣出色。測試結果顯示,Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M在短文本任務上的表現(xiàn)與其128K版本相當,這意味著增加長序列處理能力并沒有犧牲其基本能力。
與GPT-4o-mini相比,Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在短文本任務上實現(xiàn)了相近的性能,但它們的上下文長度卻是GPT-4o-mini的八倍。這一結果進一步證明了Qwen2.5-1M系列模型在短序列任務上的強大實力。