中國網(wǎng)絡(luò)空間安全協(xié)會近日宣布了一項重大舉措,正式推出了中文互聯(lián)網(wǎng)語料資源平臺,這一平臺旨在為用戶提供豐富多樣的中文語料資源。該平臺于1月9日正式上線,并面向全社會開放。
在中央網(wǎng)信辦的指導(dǎo)下,中國網(wǎng)絡(luò)空間安全協(xié)會攜手國家互聯(lián)網(wǎng)應(yīng)急中心,在已有的中文互聯(lián)網(wǎng)基礎(chǔ)語料1.0的基礎(chǔ)上,進(jìn)一步升級并發(fā)布了中文互聯(lián)網(wǎng)基礎(chǔ)語料2.0。這一新版本經(jīng)過嚴(yán)格的信源篩選、內(nèi)容過濾和數(shù)據(jù)去重等處理,確保了數(shù)據(jù)的高質(zhì)量和可信度。據(jù)悉,該語料庫規(guī)模達(dá)到了120GB,包含3800萬條數(shù)據(jù)。
平臺的語料數(shù)據(jù)集涵蓋了多個領(lǐng)域和模態(tài),用戶可以根據(jù)行業(yè)領(lǐng)域、內(nèi)容模態(tài)以及體量規(guī)模等多種標(biāo)簽進(jìn)行分類篩選,從而輕松找到所需資源。目前,平臺已經(jīng)吸引了27個語料數(shù)據(jù)集入駐,總數(shù)據(jù)量高達(dá)2.7T。
這些語料數(shù)據(jù)集主要分為三類:第一類是由中國網(wǎng)絡(luò)空間安全協(xié)會與國家互聯(lián)網(wǎng)應(yīng)急中心等聯(lián)合建設(shè)的中文互聯(lián)網(wǎng)基礎(chǔ)語料;第二類則是由人民網(wǎng)、北京智源研究院、上海人工智能實驗室等單位共享的互聯(lián)網(wǎng)語料;第三類則是由中國網(wǎng)絡(luò)空間研究院、中國國家版本館、中國大百科全書出版社、中國社會科學(xué)院圖書館等機(jī)構(gòu)提供的優(yōu)質(zhì)中文基礎(chǔ)語料樣本。
用戶只需登錄中國網(wǎng)絡(luò)空間安全協(xié)會官方網(wǎng)站,點擊“中文互聯(lián)網(wǎng)語料資源平臺”鏈接,完成注冊和認(rèn)證程序后,即可自由下載所需的語料資源。這一平臺的推出,無疑為中文信息處理、自然語言處理以及人工智能等領(lǐng)域的研究和應(yīng)用提供了強(qiáng)有力的支持。
中國網(wǎng)絡(luò)空間安全協(xié)會人工智能安全治理專委會負(fù)責(zé)人表示,數(shù)據(jù)是人工智能發(fā)展的基石,中文互聯(lián)網(wǎng)基礎(chǔ)語料2.0的發(fā)布是各界共同努力、協(xié)同共建高質(zhì)量中文語料的重要成果。未來,專委會將繼續(xù)加強(qiáng)中文互聯(lián)網(wǎng)基礎(chǔ)語料的建設(shè)工作,為人工智能技術(shù)的創(chuàng)新和產(chǎn)業(yè)發(fā)展提供更加堅實的支撐和保障。