近期,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(以下簡稱“深度求索”)發(fā)布了一則令人矚目的消息,其最新研發(fā)的DeepSeek-V3系列模型的首個版本已經(jīng)正式上線,并且公司已經(jīng)決定將其開源。這一消息于12月26日正式對外公布。
深度求索方面表示,DeepSeek-V3在多項評測中展現(xiàn)出了卓越的性能,超越了Qwen2.5-72B和Llama-3.1-405B等知名的開源模型。更令人矚目的是,DeepSeek-V3在性能上與世界頂尖的閉源模型,如GPT-4o和Claude-3.5-Sonnet,也達(dá)到了相當(dāng)?shù)乃?。這一成就無疑展示了深度求索在人工智能領(lǐng)域的深厚實力。
在官方公布的技術(shù)論文中,深度求索透露了v3模型的總訓(xùn)練成本為557.6萬美元,相較于GPT-4o等模型的約1億美元訓(xùn)練成本,顯得更為經(jīng)濟(jì)高效。這無疑為人工智能領(lǐng)域的研究和開發(fā)帶來了新的啟示,表明高效且成本效益高的模型訓(xùn)練方法正在成為可能。
然而,盡管DeepSeek-V3在性能和成本上取得了顯著的成就,但在實際測試中,該模型卻出現(xiàn)了一個有趣的小插曲。當(dāng)被問及它是哪家大模型時,DeepSeek-V3竟給出了“ChatGPT”的答案。這一bug顯然有些出乎意料,目前也尚未得到修復(fù)。這一現(xiàn)象也引發(fā)了人們對人工智能模型準(zhǔn)確性和可靠性的進(jìn)一步思考。
不過,值得注意的是,當(dāng)使用中文進(jìn)行提問時,DeepSeek-V3則能夠正確地報出自己的身份。這一表現(xiàn)也顯示了該模型在中文處理上的優(yōu)勢和能力。這一發(fā)現(xiàn)也為未來人工智能模型在跨語言處理方面的發(fā)展提供了新的可能性和方向。