紐約大學(xué)近期公布的一項研究,揭示了大型語言模型(LLM)在接收醫(yī)學(xué)領(lǐng)域訓(xùn)練數(shù)據(jù)時面臨的潛在風(fēng)險。研究顯示,即便訓(xùn)練數(shù)據(jù)中僅混入極少量(0.001%)的錯誤信息,也可能導(dǎo)致LLM輸出不準(zhǔn)確的醫(yī)學(xué)答案,這一發(fā)現(xiàn)引起了廣泛關(guān)注。
研究團隊還深入探究了錯誤信息的最低影響閾值。以疫苗錯誤信息為例,當(dāng)錯誤信息僅占訓(xùn)練數(shù)據(jù)的0.01%時,模型生成的答案中超過10%包含錯誤信息;即便錯誤信息比例降至0.001%,仍有超過7%的答案是有害的。研究指出,對于擁有700億參數(shù)的LLaMA 2模型,進行類似的攻擊僅需生成4萬篇文章(成本不到100美元)。這些“文章”可以是普通的網(wǎng)頁,錯誤信息可以隱藏在網(wǎng)頁的不可見區(qū)域,或者通過隱藏文本(如黑色背景上的黑色文字)來實現(xiàn)。
研究同時指出,現(xiàn)有的錯誤信息問題同樣嚴(yán)峻。許多非專業(yè)人士傾向于從通用的LLM中獲取醫(yī)學(xué)信息,而這些模型往往基于整個互聯(lián)網(wǎng)進行訓(xùn)練,其中包含大量未經(jīng)核實的錯誤信息。為了應(yīng)對這一問題,研究人員設(shè)計了一種算法,能夠識別LLM輸出中的醫(yī)學(xué)術(shù)語,并與經(jīng)過驗證的生物醫(yī)學(xué)知識圖譜進行比對,從而標(biāo)記出無法驗證的短語。盡管這種方法未能捕捉到所有醫(yī)學(xué)錯誤信息,但成功標(biāo)記了其中的大部分。
然而,即便是最優(yōu)質(zhì)的醫(yī)學(xué)數(shù)據(jù)庫(如PubMed)也未能幸免于錯誤信息的問題。醫(yī)學(xué)研究文獻中充斥著未能驗證的理論和已被淘汰的治療方法。研究進一步表明,即便依賴最優(yōu)質(zhì)的醫(yī)學(xué)數(shù)據(jù)庫進行訓(xùn)練,也無法確保LLM完全免受錯誤信息的影響。醫(yī)學(xué)領(lǐng)域的復(fù)雜性和多樣性使得構(gòu)建一個始終可靠的醫(yī)學(xué)LLM變得異常艱難。
研究還強調(diào)了錯誤信息在LLM訓(xùn)練中的隱蔽性和持久性。一旦錯誤信息被模型學(xué)習(xí)并固化,就很難通過后續(xù)的更新或修正來完全消除。這要求我們在構(gòu)建和訓(xùn)練LLM時,必須更加謹(jǐn)慎地選擇和審核訓(xùn)練數(shù)據(jù),以確保模型的準(zhǔn)確性和可靠性。
總之,紐約大學(xué)的這項研究為我們敲響了警鐘,提醒我們在利用LLM進行醫(yī)學(xué)信息傳播和決策支持時,必須保持高度的警惕和審慎。