【ITBEAR】網(wǎng)絡(luò)安全領(lǐng)域近日傳出警訊,0Din公司的研究員Marco Figueroa揭示了一種針對(duì)GPT-4o的新型越獄攻擊方法。此方法能成功規(guī)避GPT-4o內(nèi)置的安全防護(hù)措施,誘導(dǎo)其編寫(xiě)出具有惡意攻擊性的程序。
據(jù)OpenAI官方介紹,GPT-4o原本配備了一套“安全護(hù)欄”系統(tǒng),旨在防止用戶(hù)濫用該AI技術(shù)。這套系統(tǒng)會(huì)分析用戶(hù)輸入的文本提示,以識(shí)別并阻止惡意內(nèi)容的生成。
然而,Marco Figueroa發(fā)現(xiàn)了一種新技巧,他通過(guò)將惡意指令轉(zhuǎn)換成十六進(jìn)制格式,巧妙地繞過(guò)了GPT-4o的安全檢查。這意味著,即使面對(duì)防護(hù)措施,GPT-4o仍可能被誘導(dǎo)執(zhí)行攻擊者的惡意指令。
在實(shí)驗(yàn)中,研究人員先要求GPT-4o對(duì)十六進(jìn)制字符串進(jìn)行解碼。隨后,他向GPT-4o發(fā)送了一條隱藏有惡意意圖的十六進(jìn)制指令,該指令的實(shí)際內(nèi)容是要求GPT-4o利用互聯(lián)網(wǎng)資源研究CVE-2024-41110漏洞,并使用Python編寫(xiě)相應(yīng)的惡意程序。令人震驚的是,GPT-4o在短短1分鐘內(nèi)就完成了任務(wù),成功利用該漏洞編寫(xiě)出攻擊代碼。
Marco Figueroa解釋說(shuō),GPT系列模型在設(shè)計(jì)上遵循自然語(yǔ)言指令進(jìn)行編碼和解碼操作,但它們?nèi)狈?duì)整體情境的安全評(píng)估能力。因此,黑客經(jīng)常利用這一弱點(diǎn),誘導(dǎo)模型執(zhí)行不當(dāng)操作。此次發(fā)現(xiàn)的越獄攻擊方法,再次暴露了AI模型在安全性方面的脆弱性。
研究人員強(qiáng)調(diào),這一發(fā)現(xiàn)應(yīng)被視為對(duì)AI模型開(kāi)發(fā)者的警鐘。為了防范此類(lèi)基于上下文理解的攻擊,開(kāi)發(fā)者需要進(jìn)一步加強(qiáng)模型的安全防護(hù)措施。