【ITBEAR】在人工智能領(lǐng)域,一項(xiàng)新的評(píng)測(cè)基準(zhǔn)正悄然興起,它不同于傳統(tǒng)的算法測(cè)試,而是將AI放入了一個(gè)極具創(chuàng)意的場(chǎng)景——《我的世界》游戲中進(jìn)行建筑能力的比拼。
這項(xiàng)新奇的評(píng)測(cè)方法吸引了大量關(guān)注,不同版本的大模型如Claude 3.5 Sonnet、OpenAI的o1系列等紛紛在《我的世界》中一展身手,其建筑成果由網(wǎng)友們投票評(píng)選。
在比拼中,新舊兩版Claude 3.5 Sonnet的表現(xiàn)尤為引人注目。新版Sonnet,被戲稱(chēng)為“Sonnet 3.6”,在建筑創(chuàng)意性上小勝一籌,展現(xiàn)了不俗的迭代進(jìn)步能力。
與此同時(shí),OpenAI的o1系列也表現(xiàn)出色。o1-preview模型雖然建筑速度較慢,但其精細(xì)度和結(jié)構(gòu)完整性令人印象深刻。在模仿真實(shí)建筑泰姬陵的任務(wù)中,o1-preview更是大放異彩,展現(xiàn)了極高的建筑技藝。
這場(chǎng)AI建筑大賽不僅吸引了眾多觀眾的目光,更激發(fā)了開(kāi)源社區(qū)的熱情。在GitHub上,相關(guān)代碼迅速上架,更多模型的測(cè)試結(jié)果也陸續(xù)公布,形成了一股AI建筑評(píng)測(cè)的熱潮。
這場(chǎng)競(jìng)賽并非簡(jiǎn)單的建筑比拼。AI需要通過(guò)文本提供上下文,并生成下一步的操作指令,類(lèi)似于根據(jù)棋盤(pán)行列編號(hào)下盲棋。這種評(píng)測(cè)方式不僅考驗(yàn)了AI的建筑能力,更對(duì)其文本理解和指令生成能力提出了高要求。
隨著比賽的深入進(jìn)行,越來(lái)越多有趣的建筑作品涌現(xiàn)出來(lái)。從塔式建筑到太陽(yáng)系模型,再到反映AI個(gè)性的鉆石墻和機(jī)器人形象,這些作品充分展現(xiàn)了AI的創(chuàng)造力和多樣性。
如今,這項(xiàng)新型MC Bench評(píng)測(cè)已經(jīng)成為AI領(lǐng)域的一道亮麗風(fēng)景線(xiàn)。未來(lái),隨著更多模型的加入和評(píng)測(cè)機(jī)制的完善,我們有理由期待更多精彩作品的誕生。