亚洲人成图片小说网站_亚洲精品无码成人_亚洲精品国产a久久久久久_日韩人妻无码免费视频一区二区三区_国产精品久久久久久久久久直播

當(dāng)前位置

首頁> 新聞動態(tài)> 協(xié)會動態(tài)

藍(lán)海沙龍|第272期:“我國大模型中文語料庫的發(fā)展現(xiàn)狀與高質(zhì)量發(fā)展路徑”研討會在京召開

2024年04月07日 17:00

4月3日,由中國互聯(lián)網(wǎng)協(xié)會主辦,中國互聯(lián)網(wǎng)協(xié)會人工智能工作委員會協(xié)辦的第272期藍(lán)海沙龍——“我國大模型中文語料庫的發(fā)展現(xiàn)狀與高質(zhì)量發(fā)展路徑”研討會在京召開。北京師范大學(xué)新聞傳播學(xué)院教授、媒體融合與數(shù)字出版研究中心主任秦艷華,北京師范大學(xué)互聯(lián)網(wǎng)發(fā)展研究院院長助理吳沈括,北京外國語大學(xué)信息科學(xué)技術(shù)學(xué)院副教授徐月梅,中國信息通信研究院人工智能研究中心研究員燕江依,首都版權(quán)協(xié)會副秘書長、動漫與游戲工作委員會秘書長楊志勇,中電信人工智能科技有限公司AI研發(fā)中心資深算法工程師趙宇,中國電信集團(tuán)數(shù)據(jù)發(fā)展中心生態(tài)合作總監(jiān)李鵬飛,中國聯(lián)通研究院研究員趙燦,古聯(lián)(北京)數(shù)字傳媒科技有限公司總經(jīng)理洪濤,阿里研究院高級行業(yè)研究專家王崢,抖音集團(tuán)數(shù)據(jù)及隱私法務(wù)總監(jiān)高震等參加會議并發(fā)言。會議由中國互聯(lián)網(wǎng)協(xié)會副秘書長裴瑋和北京智源人工智能研究院數(shù)據(jù)研究組負(fù)責(zé)人張正主持。


upfile

裴瑋表示,2022年全球大模型迎來了爆發(fā)增長,總體看我國在大模型領(lǐng)域取得了一定的成就,但仍面臨著一些挑戰(zhàn),其中最顯著的問題之一就是高質(zhì)量中文語料資源的短缺。以ChatGPT為例,訓(xùn)練數(shù)據(jù)中文資料比重不足千分之一。高質(zhì)量中文語料庫的不足,導(dǎo)致國內(nèi)許多從事大模型開發(fā)的研究機(jī)構(gòu)和企業(yè)在進(jìn)行模型訓(xùn)練時,不得不依賴于外文標(biāo)注數(shù)據(jù)集、開源數(shù)據(jù)集或是爬取網(wǎng)絡(luò)數(shù)據(jù)。鑒于此,探索我國大模型中文語料庫的高質(zhì)量發(fā)展路徑,對于大模型行業(yè)的未來發(fā)展具有重要意義和價值。本次研討會主要就我國大模型中文語料庫的發(fā)展現(xiàn)狀、面臨的形式、任務(wù)及其高質(zhì)量發(fā)展路徑等進(jìn)行探討。


upfile

張正表示,在過去幾年時間內(nèi),模型的參數(shù)規(guī)模增長給性能帶來了一定提升,但訓(xùn)練數(shù)據(jù)的質(zhì)量和組織形式對模型性能的提升帶來了更大的幫助。數(shù)據(jù)工作已經(jīng)成為大模型行業(yè)中最受關(guān)注的一個任務(wù),在模型規(guī)模不變的前提下,數(shù)據(jù)的變化能夠讓模型效果得到非常大的提升。模型參數(shù)量越大,數(shù)量越多,能力越強(qiáng)。一些科學(xué)家提出,大模型的本質(zhì)是對數(shù)據(jù)做無損壓縮,目前各家大模型公司的一個核心任務(wù)就是,如何對數(shù)據(jù)做有效清洗,以及如何更進(jìn)一步人工合成一些高價值數(shù)據(jù),從數(shù)據(jù)層面提升模型的性能。

王崢表示,大模型訓(xùn)練所需要的語料具有“廣”“齊”“?!钡奶攸c,訓(xùn)練過程并不依賴個人信息。模型語料需要政府和社會力量更好地協(xié)同。在政府側(cè)進(jìn)一步加強(qiáng)應(yīng)用于訓(xùn)練的公共數(shù)據(jù)開放,特別是具有科研屬性的公共數(shù)據(jù),同時鼓勵社會力量參訓(xùn)練公共數(shù)據(jù)集的開發(fā)建設(shè),通過多方參與機(jī)制提高訓(xùn)練數(shù)據(jù)質(zhì)量和安全性。對于受財政支持的科研和文化單位所有的知識產(chǎn)權(quán)類數(shù)據(jù),鼓勵通過開放、共享等方式向社會公開,基于非營利性成本補(bǔ)償原則明確合理收費標(biāo)準(zhǔn)。低質(zhì)量的語料可以用數(shù)據(jù)治理的標(biāo)準(zhǔn)來去劣,而高質(zhì)量語料很難有統(tǒng)一的客觀標(biāo)準(zhǔn)去衡量,應(yīng)該交給市場機(jī)制去嘗試和探索,不要預(yù)設(shè)前置標(biāo)準(zhǔn)。

高震表示,語料數(shù)據(jù)的權(quán)利清潔性是語料庫建設(shè)、流通和使用的重要合規(guī)前提,個人信息、知識產(chǎn)權(quán)等法律規(guī)則的因應(yīng)完善,安全合規(guī)技術(shù)的配套發(fā)展,以及協(xié)會引導(dǎo)下的行業(yè)自律和標(biāo)準(zhǔn)化建設(shè)三管齊下,預(yù)期能夠更好地解決相關(guān)難題。

洪濤表示,關(guān)于古籍文獻(xiàn)和語料庫的基本情況,我國現(xiàn)存古籍大概20萬種,50萬版本。整個古籍?dāng)?shù)字化的用字量大,普及難度大,中文古籍語料庫內(nèi)容多,但是高質(zhì)量古籍?dāng)?shù)據(jù)稀缺。古籍領(lǐng)域大模型垂直應(yīng)用場景包括古文應(yīng)用場景和傳統(tǒng)文化的場景。古文應(yīng)用場景更多地用于古籍整理和學(xué)術(shù)研究,傳統(tǒng)文化的場景應(yīng)用于文化普及。要想對這兩個場景更好的服務(wù),要綜合訓(xùn)練古籍和現(xiàn)代文獻(xiàn)才能實現(xiàn)傳統(tǒng)文化內(nèi)容創(chuàng)新性應(yīng)用。

趙燦表示,我國大模型及中文語料庫建設(shè)上雖有成果但面臨總量不足、分布不均、垂直覆蓋有限、質(zhì)量參差不齊等挑戰(zhàn),尤其是優(yōu)質(zhì)、專業(yè)、多元的中文數(shù)據(jù)供給存在明顯短板。建議在國家相關(guān)政策引導(dǎo)下,建設(shè)數(shù)據(jù)流動和交易特區(qū),推動跨行業(yè)數(shù)據(jù)資產(chǎn)入表,強(qiáng)化跨域數(shù)據(jù)服務(wù)的深度融合,同時不斷完善數(shù)據(jù)撮合交易機(jī)制與基礎(chǔ)設(shè)施建設(shè),示范引領(lǐng)數(shù)據(jù)資產(chǎn)產(chǎn)業(yè)發(fā)展,為構(gòu)建高質(zhì)量的大模型中文語料庫提供有力支撐。

李鵬飛表示,隨著人工智能大模型在各領(lǐng)域各場景加速落地,大模型訓(xùn)練數(shù)據(jù)語料的價值日益凸顯,正成為影響大模型應(yīng)用效果的關(guān)鍵因素。當(dāng)前,大模型訓(xùn)練語料在數(shù)據(jù)獲取、數(shù)據(jù)質(zhì)量、數(shù)據(jù)處理、數(shù)據(jù)隱私和安全等方面還有諸多問題有待解決。需要行業(yè)伙伴共同探索數(shù)據(jù)合作機(jī)制與商業(yè)模式,推動數(shù)據(jù)資源在合規(guī)前提下的開放共享,構(gòu)建大模型語料質(zhì)量評價體系,打造安全可信的數(shù)據(jù)處理基礎(chǔ)設(shè)施,共同推動人工智能行業(yè)高質(zhì)量發(fā)展。

趙宇表示,大模型語料庫的建設(shè)離不開高質(zhì)量的數(shù)據(jù)解析和清洗,需要大量的人力和算力投入。如何更好地評估數(shù)據(jù)價值和數(shù)據(jù)成本,是建設(shè)數(shù)據(jù)共享生態(tài)的關(guān)鍵。因此,建議發(fā)揮國家宏觀調(diào)配優(yōu)勢,從國家層面建立統(tǒng)一的數(shù)據(jù)機(jī)關(guān)、數(shù)據(jù)平臺,完善法律法規(guī),設(shè)置激勵政策,統(tǒng)一數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),從而促進(jìn)數(shù)據(jù)市場繁榮。

楊志勇表示,隨著人工智能時代的來臨,建設(shè)好中文語料庫尤為重要,應(yīng)突出“兩量”和“一護(hù)”?!皟闪俊币皇强尚诺闹形奈谋緮?shù)量,二是文本內(nèi)容的質(zhì)量;“一護(hù)”是版權(quán)護(hù)航,才能行穩(wěn)致遠(yuǎn)。

燕江依表示,在大模型時代,海量、高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)集,成為拉開能力差距的關(guān)鍵要素。通過添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護(hù)數(shù)據(jù)等手段,形成優(yōu)質(zhì)的標(biāo)準(zhǔn)化數(shù)據(jù)集和完備的數(shù)據(jù)全生命周期管理體系。人工智能高質(zhì)量數(shù)據(jù)集應(yīng)滿足為可靠性、準(zhǔn)確性、完整性、多樣性、標(biāo)注精確性、安全性、均衡性、及時性等八大特征。建議聯(lián)動各方生態(tài)力量,完善人工智能數(shù)據(jù)生態(tài)服務(wù),推動人工智能高質(zhì)量數(shù)據(jù)集建設(shè)發(fā)展。

徐月梅表示,大語言模型的多語言能力參差不齊,迫切需要提升大語言模型的中文語言能力。訓(xùn)練語料的清洗程度、多樣性、規(guī)模大小對模型的性能有重要影響。建設(shè)高質(zhì)量中文訓(xùn)練語料是關(guān)鍵,如何評價語料的高質(zhì)量,值得探究。

吳沈括表示,作為全球業(yè)內(nèi)共識,語料數(shù)據(jù)的質(zhì)量,決定了人工智能算法的水平以及大模型的水準(zhǔn)。在當(dāng)下國際數(shù)據(jù)治理時代背景下,各個國家和地區(qū)都十分重視語料生態(tài)的培育建設(shè),包括通過制定出臺相關(guān)的政策法規(guī)作出系統(tǒng)的正向促動。就現(xiàn)實而言,中文語料的建設(shè)具有顯著的現(xiàn)實意義和緊迫性,其過程需要注重考慮數(shù)據(jù)質(zhì)量、權(quán)益保護(hù)以及行業(yè)生態(tài)等多重價值。一方面,要提高數(shù)據(jù)等要素資源的供給水平,包括深度挖掘公共數(shù)據(jù)的價值潛力。另一方面,要持續(xù)提高語料數(shù)據(jù)的質(zhì)量要求,包括必要的基礎(chǔ)設(shè)施支撐和技術(shù)標(biāo)準(zhǔn)指引。同時,也要培育壯大行業(yè)生態(tài)水準(zhǔn),通過推動千行百業(yè)的融合與交互,憑借全面、有效的激勵機(jī)制,提升中文語料建設(shè)工作的可持續(xù)發(fā)展能力。

秦艷華表示,高質(zhì)量中文語料庫建設(shè)勢在必行,希望由相關(guān)部門或協(xié)會或公益組織籌集人力、物力、財力,集中搭建全國最具影響力的中文語料庫平臺,構(gòu)建通用大語言模型,并開源,免費供大家使用。

upfile

通過各界專家的研討發(fā)現(xiàn),在大模型時代,數(shù)據(jù)成為新一輪人工智能競爭的壁壘與制高點,我國大模型及中文語料庫建設(shè)上雖有成果,但仍面臨總量不足、分布不均、垂直覆蓋有限、質(zhì)量參差不齊等挑戰(zhàn)。建議從國家層面建立統(tǒng)一的數(shù)據(jù)機(jī)關(guān)、數(shù)據(jù)平臺,完善法律法規(guī),設(shè)置激勵政策,鼓勵社會力量參與訓(xùn)練公共數(shù)據(jù)集的開發(fā)。行業(yè)協(xié)會主動引導(dǎo)行業(yè)自律,開展相關(guān)標(biāo)準(zhǔn)化建設(shè),提高行業(yè)生態(tài)水準(zhǔn),共同推動高質(zhì)量中文語料庫的建設(shè)。

2011-2019 Copyrights reserved 京ICP備05006316號 版權(quán)所有:中國互聯(lián)網(wǎng)協(xié)會
技術(shù)支持:北京圣明慧力科技有限公司