近日,人工智能領(lǐng)域迎來(lái)了一項(xiàng)新的安全創(chuàng)新。為了應(yīng)對(duì)人工智能工具濫用自然語(yǔ)言提示的問(wèn)題,OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic推出了一項(xiàng)名為“憲法分類器”的全新概念。這一創(chuàng)新方法旨在將一套類似人類價(jià)值觀的規(guī)則(形象地比喻為一部“憲法”)嵌入大型語(yǔ)言模型中。
據(jù)悉,Anthropic的安全保障研究團(tuán)隊(duì)在一篇最新的學(xué)術(shù)論文中詳細(xì)闡述了這一安全措施。該措施的主要目標(biāo)是減少其最新、最先進(jìn)的大型語(yǔ)言模型Claude 3.5 Sonnet的“越獄”行為,即生成超出既定安全防護(hù)范圍的輸出內(nèi)容。實(shí)驗(yàn)結(jié)果顯示,在實(shí)施憲法分類器后,Claude模型的越獄成功率顯著降低了81.6%,而該系統(tǒng)對(duì)模型性能的影響微乎其微,生產(chǎn)流量拒絕率僅絕對(duì)增加了0.38%,推理開銷增加了23.7%。
隨著大型語(yǔ)言模型的應(yīng)用日益廣泛,生成有害內(nèi)容的風(fēng)險(xiǎn)也日益凸顯。Anthropic及其同行如OpenAI等,對(duì)化學(xué)、生物、放射和核(CBRN)相關(guān)內(nèi)容的風(fēng)險(xiǎn)尤為關(guān)注。例如,這些模型可能會(huì)提供制造有害化學(xué)制劑的指導(dǎo)。為了驗(yàn)證憲法分類器的有效性,Anthropic發(fā)起了一項(xiàng)挑戰(zhàn),邀請(qǐng)用戶嘗試突破8個(gè)與CBRN內(nèi)容相關(guān)的越獄關(guān)卡。然而,這一舉措也引發(fā)了一些爭(zhēng)議,有批評(píng)者認(rèn)為這是在利用社區(qū)資源為閉源模型的安全測(cè)試做貢獻(xiàn)。
針對(duì)這些爭(zhēng)議,Anthropic進(jìn)行了解釋。他們指出,成功的越獄行為是繞過(guò)了憲法分類器,而非直接規(guī)避。他們列舉了兩種常見的越獄方法:一種是良性釋義,即通過(guò)改變表述方式繞過(guò)敏感內(nèi)容;另一種是長(zhǎng)度利用,即通過(guò)添加無(wú)關(guān)細(xì)節(jié)來(lái)迷惑模型。同時(shí),Anthropic也承認(rèn),在測(cè)試期間,一些提示因誤報(bào)或漏報(bào)而被錯(cuò)誤地拒絕,拒絕率較高。
Anthropic進(jìn)一步補(bǔ)充說(shuō),盡管已知對(duì)沒(méi)有憲法分類器的模型有效的越獄方法在這一防御措施下并未成功,但他們?nèi)栽诓粩喔倪M(jìn)和完善這一系統(tǒng)。他們認(rèn)識(shí)到,基于規(guī)則的測(cè)試系統(tǒng)存在局限性,并致力于提高系統(tǒng)的準(zhǔn)確性和可靠性。這一創(chuàng)新不僅為大型語(yǔ)言模型的安全性提供了新的解決方案,也為人工智能領(lǐng)域的未來(lái)發(fā)展開辟了新的方向。