近日,在一次備受矚目的公開活動中,人工智能巨頭OpenAI的首席執(zhí)行官薩姆·阿爾特曼分享了一個引人注目的觀察結(jié)果:他感受到,近年來人工智能的“智商”正以前所未有的速度飆升。阿爾特曼坦言,這只是一種直覺上的判斷,并不具備科學上的精確性,但他認為,人工智能每年在智商上的進步相當于人類的一個標準差。
實際上,阿爾特曼并非首個嘗試用智商來衡量人工智能發(fā)展的人。在社交媒體平臺上,已有不少人工智能領域的意見領袖讓各種模型接受智商測試,并根據(jù)成績進行排名。然而,這一做法在專家圈內(nèi)引發(fā)了廣泛爭議。許多專家認為,智商作為衡量人工智能能力的指標,不僅不合適,甚至可能具有誤導性。
牛津大學研究技術與監(jiān)管的學者桑德拉·瓦赫特在接受采訪時表示,盡管用人類的衡量標準來描述人工智能的能力或進步頗具吸引力,但這種做法無異于“蘋果與橘子的比較”。她解釋說,智商測試本質(zhì)上是一種相對而非絕對的智力測量方式,在邏輯和抽象推理方面或許有一定的參考價值,但它無法全面反映實際智力,即知道如何讓事物運作的能力。
瓦赫特進一步指出,智商測試是基于科學家對人類智力的理解而設計的,因此不能簡單地套用到人工智能身上。她以汽車和潛水艇為例,強調(diào)這些工具在某些方面超越了人類,但這并不意味著它們擁有更高的智力。人類智力是一個極其復雜的概念,不能簡單地將某一方面的性能與之等同。
智商測試的起源可以追溯到備受爭議的優(yōu)生學。參加智商測試的人需要具備強大的工作記憶能力,并熟悉西方文化規(guī)范,這為偏見留下了空間。有心理學家甚至將智商測試稱為“意識形態(tài)上可被操縱的機械智力模型”。
華盛頓大學研究倫理人工智能的博士候選人奧斯·凱斯認為,人工智能在智商測試中表現(xiàn)優(yōu)異,更多地反映了測試本身的局限性,而非模型的真正實力。他指出,擁有幾乎無限內(nèi)存和耐心的模型很容易“玩弄”這些測試。智商測試作為一種衡量認知、意識和智力的方式,其局限性在數(shù)字計算機發(fā)明之前就已經(jīng)被認識到。
倫敦國王學院的研究員邁克·庫克也表示,智商測試盡管存在偏見,但它是為人類設計的,旨在評估一般性的問題解決能力,并不適合用于評估以與人類截然不同方式解決問題的技術。他強調(diào),模型在智商測試中可能具有不公平的優(yōu)勢,因為它們擁有海量內(nèi)存和內(nèi)化的知識,而且測試往往重復非常相似的模式。
庫克還提到,當人類解決問題時,需要應對更多的事情,而且在解決問題時得到的幫助也比人工智能少得多。他以烏鴉使用工具從盒子里取出食物為例,指出這并不意味著烏鴉可以進入哈佛大學。同樣地,當人類解決數(shù)學問題時,不僅要正確閱讀題目,還要避免受到其他思緒的干擾。
AI Now研究所的首席人工智能科學家海迪·赫拉夫在接受采訪時指出,我們需要更好的人工智能測試方法。她強調(diào),在計算歷史中,我們從未將計算能力與人類能力進行精確比較,因為計算的本質(zhì)意味著系統(tǒng)一直能夠完成超出人類能力范圍的任務。這種直接將系統(tǒng)性能與人類能力進行比較的做法是一個相對較新的現(xiàn)象,且極具爭議性。