在人工智能領(lǐng)域,一場(chǎng)激烈的模型對(duì)決正悄然上演。國(guó)產(chǎn)AI模型DeepSeek V3在最新發(fā)布的競(jìng)技場(chǎng)排名中表現(xiàn)亮眼,不僅超越了知名開(kāi)源模型o1-mini,榮登總榜前10,并斬獲“最強(qiáng)開(kāi)源模型”認(rèn)證,成為榜單上唯一躋身前10的開(kāi)源選手。
具體來(lái)看,DeepSeek V3在多個(gè)單項(xiàng)測(cè)試中表現(xiàn)卓越,尤其在困難提示、編程、數(shù)學(xué)和寫(xiě)作方面,全面超越了Claude 3.5 Sonnet。然而,在設(shè)置了風(fēng)格控制后,Claude 3.5 Sonnet在理解困難提示方面仍展現(xiàn)出一定優(yōu)勢(shì)。
這場(chǎng)對(duì)決引發(fā)了AI愛(ài)好者的激烈討論,DeepSeek V3是否真的在實(shí)際編碼中強(qiáng)于Claude 3.5 Sonnet?為了驗(yàn)證這一點(diǎn),有網(wǎng)友進(jìn)行了實(shí)測(cè)。
在經(jīng)典腦筋急轉(zhuǎn)彎的測(cè)試中,DeepSeek V3雖然回答正確,但邏輯過(guò)程相對(duì)繁瑣,而Claude 3.5 Sonnet的回答則既簡(jiǎn)潔又準(zhǔn)確。然而,在另一道考察雙關(guān)理解的題目中,DeepSeek V3卻未能理解題目意圖,而Claude 3.5 Sonnet則輕松get到了雙關(guān)點(diǎn)。
面對(duì)弱智吧經(jīng)典陷阱和反轉(zhuǎn)詛咒問(wèn)題,兩位選手都未能完全避免掉入陷阱。但在數(shù)學(xué)能力測(cè)試中,DeepSeek V3詳細(xì)按步驟解答,正確完成了考研數(shù)學(xué)真題,而Claude 3.5 Sonnet雖然方法看似簡(jiǎn)單,但最終答案卻出現(xiàn)了錯(cuò)誤。
在編碼能力的測(cè)試中,有網(wǎng)友分別使用DeepSeek V3和Claude 3.5 Sonnet在Scroll Hub中創(chuàng)建網(wǎng)站,結(jié)果顯示DeepSeek V3在編碼能力上更勝一籌。
此次競(jìng)技場(chǎng)排名中,OpenAI的o1模型也表現(xiàn)不俗,尤其是滿(mǎn)血版o1的上線(xiàn),直接超越了o1-preview 24分,空降總榜第一,并且在除創(chuàng)意寫(xiě)作外的各個(gè)單項(xiàng)中均排名第一。
隨著人工智能技術(shù)的不斷發(fā)展,各大模型之間的對(duì)決也將愈發(fā)激烈。對(duì)于用戶(hù)而言,選擇哪款模型更合適,還需根據(jù)自身需求和實(shí)際體驗(yàn)來(lái)決定。