近期,人工智能領(lǐng)域再度掀起波瀾,meta公司因被指控在其大型語言模型Llama的訓(xùn)練過程中使用了盜版內(nèi)容,而陷入了版權(quán)糾紛的風(fēng)暴中心。這一事件不僅引起了業(yè)界的廣泛關(guān)注,更被視為科技公司在AI訓(xùn)練中使用未經(jīng)授權(quán)內(nèi)容所面臨的首次重大版權(quán)訴訟。
事情的起因可追溯到2023年,小說家理查德·卡德雷與克里斯托弗·金登聯(lián)手,對meta提起了名為“Kadrey等人訴meta平臺案”的訴訟。他們指控meta在未經(jīng)版權(quán)所有者許可的情況下,擅自使用了受保護(hù)的內(nèi)容來訓(xùn)練其LLM模型Llama。這一指控迅速引發(fā)了輿論的熱議。
在案件審理過程中,meta曾試圖通過提交經(jīng)過編輯的信息文件來規(guī)避一些敏感內(nèi)容,但加利福尼亞州北區(qū)聯(lián)邦地區(qū)法院的法官文斯·查布拉卻堅(jiān)持要求公開原始文件。這些文件無疑成為了案件的關(guān)鍵證據(jù),它們不僅揭示了meta員工之間關(guān)于LLama和meta AI的交談細(xì)節(jié),更有一位工程師在對話中坦承,自己在公司筆記本上下載盜版內(nèi)容時(shí)感到不妥。這一表述無疑證實(shí)了meta確實(shí)涉及了使用盜版內(nèi)容訓(xùn)練AI的行為。文件中還有對話暗示,meta的首席執(zhí)行官馬克·扎克伯格對于使用盜版材料的行為持默許態(tài)度。
進(jìn)一步調(diào)查發(fā)現(xiàn),meta獲取盜版內(nèi)容的渠道之一竟是LibGen,這個(gè)自2008年在俄羅斯創(chuàng)建的大型資源庫,長期以來一直因涉及版權(quán)訴訟而備受爭議。盡管其實(shí)際運(yùn)營者身份不明,但meta卻從中獲取了大量的書籍、雜志和學(xué)術(shù)論文等內(nèi)容用于AI訓(xùn)練。meta還被曝出從其他非法資源庫中獲取了內(nèi)容。
面對如此指控,meta并未坐以待斃,而是提出了自己的辯護(hù)意見。meta認(rèn)為,其使用公共材料的行為符合“合理使用”法律原則,即在特定情況下,即使未經(jīng)許可使用受版權(quán)保護(hù)的內(nèi)容也是合法的。meta還強(qiáng)調(diào),他們使用這些文本僅僅是為了進(jìn)行語言統(tǒng)計(jì)建模并生成原始表達(dá),而非用于其他商業(yè)目的。
值得注意的是,meta并非孤例。在此之前,已有其他大型科技公司因使用受版權(quán)保護(hù)內(nèi)容訓(xùn)練AI模型而遭受質(zhì)疑。例如,去年的一項(xiàng)調(diào)查就指出,蘋果創(chuàng)建的OpenELM模型中包含了來自超過17萬個(gè)YouTube視頻的字幕。這一發(fā)現(xiàn)最初引發(fā)了人們對蘋果是否濫用受版權(quán)保護(hù)內(nèi)容訓(xùn)練Apple Intelligence的擔(dān)憂。然而,蘋果隨后澄清稱,OpenELM是一個(gè)用于研究目的的開源模型,其數(shù)據(jù)庫并未用于支持Apple Intelligence。
蘋果還表示,其在iOS和macOS上提供的AI功能是在“許可數(shù)據(jù)”上訓(xùn)練的,這些數(shù)據(jù)包括為增強(qiáng)特定功能而選擇的數(shù)據(jù)以及由網(wǎng)絡(luò)爬蟲收集的公開可用數(shù)據(jù)。值得注意的是,許多大型出版商,如《紐約時(shí)報(bào)》和《大西洋月刊》,已明確表示不會與Apple Intelligence的訓(xùn)練共享其內(nèi)容,這也在一定程度上反映了出版界對于科技公司使用受版權(quán)保護(hù)內(nèi)容的謹(jǐn)慎態(tài)度。