智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西1月4日報道,上周四(12月30日),在北京智源人工智能研究院自然語言處理重大研究方向前沿技術(shù)開放日上,北京智源人工智能研究院(以下簡稱“智源研究院”)發(fā)布大模型評測的“命題”新方案——智源指數(shù)。

NLP是智源重大學(xué)術(shù)研究方向之一,由清華大學(xué)孫茂松教授任該方向首席科學(xué)家,北京語言大學(xué)楊爾弘教授任項(xiàng)目經(jīng)理,學(xué)者包括李涓子、穗志方、劉洋、萬小軍、何曉冬,青年科學(xué)家包括劉知遠(yuǎn)、韓先培、孫栩、嚴(yán)睿、張家俊、趙鑫、楊植麟、李紀(jì)為等。

除了發(fā)布智源指數(shù)外,本次技術(shù)開放日期間,24位自然語言處理(NLP)學(xué)術(shù)專家,20多項(xiàng)前沿報告、10余項(xiàng)最新研究成果“組團(tuán)”亮相。

一、智源指數(shù)CUGE:面向大模型的多層次、多維度評測方案

據(jù)清華大學(xué)副教授、智源青年科學(xué)家、智源指數(shù)建設(shè)骨干成員劉知遠(yuǎn)介紹,智源指數(shù)CUGE(全稱為Chinese Language Enderstanding and Generation Evaluation)是一個全面均衡的機(jī)器中文語言能力評測基準(zhǔn),在全面系統(tǒng)的評測體系基礎(chǔ)上建立了多層次、多維度的評測方案。

智源NLP重大研究方向發(fā)布“智源指數(shù)”,全面系統(tǒng)評測機(jī)器中文語言能力

CUGE網(wǎng)站鏈接:cuge.baai.ac.cn

技術(shù)報告鏈接:arxiv.org/pdf/2112.13610.pdf

代碼鏈接:github.com/TsinghuaAI/CUGE

在基準(zhǔn)框架上,不同于傳統(tǒng)將常用數(shù)據(jù)集扁平組織的方式,智源指數(shù)根據(jù)人類語言考試大綱和當(dāng)前NLP研究現(xiàn)狀,以語言能力-任務(wù)-數(shù)據(jù)集的分層框架來選擇和組織數(shù)據(jù)集,涵蓋7種重要語言能力、17個主流NLP任務(wù)和19個代表性數(shù)據(jù)集,全面均衡,避免“偏科選拔”。

智源NLP重大研究方向發(fā)布“智源指數(shù)”,全面系統(tǒng)評測機(jī)器中文語言能力▲智源指數(shù)CUGE框架

在評分策略上,參考現(xiàn)有評測方案優(yōu)缺點(diǎn),智源指數(shù)構(gòu)建了一個多層次的評測方案,能更好展現(xiàn)模型不同維度的模型語言智能差異:依托能力-任務(wù)-數(shù)據(jù)集層次性基準(zhǔn)框架,提供不同層次的模型性能評分,系統(tǒng)性大大加強(qiáng)。

智源指數(shù)會提供一個參與者模型的性能排行榜,該排行榜充分吸收了國內(nèi)外相關(guān)評測基準(zhǔn)的特點(diǎn),構(gòu)建出了一個具有相應(yīng)特色。

第一,排行榜基于能力-任務(wù)-數(shù)據(jù)集體系,會給每一個數(shù)據(jù)集所對應(yīng)的標(biāo)簽,方便參與者篩選出感興趣的能力或角度,進(jìn)行相應(yīng)的評測。

第二,基于標(biāo)簽體系,支持參與者通過標(biāo)簽篩選的方式定制排行榜。同時官方也會提供若干代表推薦套餐,如精簡榜等,更加方便地讓參與者利用其平臺開展有針對性的能力評測。

第三,根據(jù)7種重要語言能力呈現(xiàn)雷達(dá)圖,直觀反映不同模型在不同能力上提升的效果。

第四,平臺同時會支持單數(shù)據(jù)集的排行榜和評測,更加有利于參與者去追蹤數(shù)據(jù)集研究的進(jìn)展和動態(tài)。也就是說,任何一個單個數(shù)據(jù)集,都可以看到相關(guān)評測效果的榜單。

智源NLP重大研究方向發(fā)布“智源指數(shù)”,全面系統(tǒng)評測機(jī)器中文語言能力

“我們希望以學(xué)術(shù)的視角構(gòu)建智源指數(shù),讓它回歸我們本身構(gòu)造這種評測基準(zhǔn)的初心,不是變成刷榜的行為?!眲⒅h(yuǎn)認(rèn)為,專門針對榜做優(yōu)化,并不意味著大模型在應(yīng)用場景中獲得很好的效果,這種行為沒有意義,反而會浪費(fèi)非常大的算力和時間。

智源指數(shù)會每年定期吸納新的優(yōu)秀數(shù)據(jù)集加入到智源指數(shù)的計算中來,同時所有的提交者必須填寫Honor? Code并展示,不人工干預(yù)數(shù)據(jù)預(yù)訓(xùn)練和測試過程。未來智源也計劃依托智源研究院、智源社區(qū)的力量,提供用戶面向數(shù)據(jù)集和評測結(jié)果的反饋意見、討論機(jī)制,通過交互交流來去構(gòu)建起中文高質(zhì)量數(shù)據(jù)集社區(qū)的機(jī)制,來推動中文的自然語言處理的發(fā)展。

為了更好地去支持智源指數(shù)的發(fā)展,智源研究院搭建了「智源指數(shù)工作委員會」,由孫茂松擔(dān)任主任,穗志方和楊爾弘擔(dān)任副主任。目前,委員會單位已經(jīng)吸納了國內(nèi)在自然語言處理方面10余家優(yōu)勢單位,接近20個相關(guān)優(yōu)勢研究組,去針對智源指數(shù)不斷進(jìn)行改進(jìn),力求更加科學(xué)、規(guī)范、高質(zhì)量地推進(jìn)中文自然語言處理技術(shù)的標(biāo)準(zhǔn)評測。

對此,清華大學(xué)教授、中國人工智能學(xué)會理事長戴瓊海院士評價說:“祝賀孫茂松教授帶領(lǐng)智源NLP學(xué)者共同建立了機(jī)器中文語言能力評測基準(zhǔn)智源指數(shù),這對中文信息處理乃至我國人工智能的發(fā)展具有重要的里程碑意義。”

二、穗志方:NLP評測中的問題與對策

在智源學(xué)者成果報告會環(huán)節(jié),北京大學(xué)穗志方教授分享了NLP評測中的問題與對策。

他談到NLP評測中存在的問題涉及評測的規(guī)范性、效率、指標(biāo)、周期、數(shù)據(jù)集及任務(wù)等。

首先,評測缺乏一定規(guī)范性。這致使評測的準(zhǔn)入門檻非常低,評測數(shù)量過多而質(zhì)量參差不齊,研究者們往往采用對自己的模型最有利的數(shù)據(jù)集,并聲稱達(dá)到了最好結(jié)果,這導(dǎo)致后續(xù)研究者難以客觀地比較和超越,使得公眾難以把握當(dāng)前領(lǐng)域的真實(shí)研究水平。

第二,評測效率衰退。面對參數(shù)量越來越大的模型,大部分現(xiàn)有評測任務(wù)已經(jīng)無法明顯區(qū)分人類水平和機(jī)器表現(xiàn)。大部分評測在短時間內(nèi)失去了效力,這被稱之為評測效力衰退。

第三,評測生命周期非常短。部分評測數(shù)據(jù)集提出后不久,最好的機(jī)器模型得分就超過了人類基準(zhǔn)。評測系統(tǒng)過快失去效力,缺少生命力。?

NLP評測的是語言能力還是語言表現(xiàn),這是一個比較深刻的問題。周期短、效力衰退僅僅是語言上的一種表現(xiàn),語言能力如何去真正評估機(jī)器的語言能力,我們需要評測的是機(jī)器的語言能力,而不僅僅是表層的一種行為臨時的呈現(xiàn)。

另一個問題是通用的NLP評測。通用的NLP評測是否能夠完整、綜合、系統(tǒng)的考察機(jī)器理解與語言處理的綜合能力?我們看到的是綜合性匯總,綜合性評測可能并不是綜合,只是簡單的數(shù)據(jù)聚合,各任務(wù)之間缺乏有機(jī)關(guān)聯(lián),各個任務(wù)沒有真正結(jié)合成一個系統(tǒng),缺乏一個系統(tǒng)性的體系。

評測技術(shù)單一,為什么機(jī)器模型在短期內(nèi)可以達(dá)到比較高的水平?有一部分原因是因?yàn)樵u測技術(shù),僅僅依托于固定的訓(xùn)練集、測試集和開發(fā)集,一成不變的數(shù)據(jù)集很容易被機(jī)器模型學(xué)會、突破,導(dǎo)致評測的生命周期非常短。所以,評測技術(shù)方面還有待進(jìn)一步突破。

三、10余項(xiàng)豐碩成果,智源NLP研究方向探索與落地并重

本次技術(shù)開放日中還進(jìn)行了“自然語言處理評測中的問題與對策”、“邁向通用連續(xù)型知識庫”、“文本復(fù)述生成”等研究成果的階段性匯報,內(nèi)容涵蓋預(yù)訓(xùn)練模型、知識計算、人機(jī)對話、文本生成等10余項(xiàng)重點(diǎn)NLP科研問題。

在智源研究院的支持下,自然語言處理重大研究方向?qū)W者團(tuán)隊(duì)積極探索自然語言處理新格局,通過大數(shù)據(jù)與富知識雙輪驅(qū)動,并通過與跨模態(tài)信息進(jìn)行交互,顯著提升以自然語言為核心的中文語義理解與生成能力。

智源NLP重大研究方向發(fā)布“智源指數(shù)”,全面系統(tǒng)評測機(jī)器中文語言能力

落地應(yīng)用方面,清華大學(xué)教授、智源研究員李涓子團(tuán)隊(duì)構(gòu)建的“多模態(tài)北京旅游知識圖譜”可以為路徑規(guī)劃和景點(diǎn)信息查詢等功能提供數(shù)據(jù)支持,為游客進(jìn)行旅游行程的規(guī)劃。

京東集團(tuán)副總裁、智源研究員何曉冬博士團(tuán)隊(duì)針對大規(guī)模與訓(xùn)練語言模型在長文本理解任務(wù)上的不足,通過從局部視角到全局視角的重復(fù)閱讀方法(Read-over-Read,RoR),提出了一種基于多視角的機(jī)器閱讀理解模型,顯著地提高了針對長文本的閱讀理解能力

多樣性文本復(fù)述方面,北京大學(xué)王選計算機(jī)研究所研究員、智源研究員萬小軍團(tuán)隊(duì)的科研成果實(shí)現(xiàn)了兩個“業(yè)界首個”:成功構(gòu)建了業(yè)界首個面向?qū)W術(shù)文獻(xiàn)領(lǐng)域的文本復(fù)述數(shù)據(jù)集ParaSCI,提出了多樣化語句復(fù)述模型DivGAN,并提出業(yè)界首個篇章復(fù)述模型-CoRPG。該系列研究分別為文本復(fù)述領(lǐng)域提供了基礎(chǔ)數(shù)據(jù)資源、方法模型以及新的思路,從而推動文本復(fù)述技術(shù)的應(yīng)用落地。

預(yù)訓(xùn)練大模型方面,為突破預(yù)訓(xùn)練語言模型(Pretrained Language Model, PLM)的高計算成本、高設(shè)備需求、難應(yīng)用適配等瓶頸問題,清華大學(xué)副教授、智源青年科學(xué)家劉知遠(yuǎn)等提出了面向PLM的全流程高效計算框架, 并基于此框架構(gòu)建了以中文為核心的超大規(guī)模預(yù)訓(xùn)練語言模型CPM-2,具有1980億參數(shù),覆蓋多語言、兼顧語言理解和語言生成的功能,并研制了BMInf、OpenPrompt等配套開源工具。

趙鑫、韓先培、張家俊等7位青年科學(xué)家,也帶來關(guān)于預(yù)訓(xùn)練模型、多模態(tài)語言等方面的最新成果分享,帶來新一代學(xué)者的前沿思考。

包括NLP方向在內(nèi),智源研究院于2019年4月啟動的“智源學(xué)者計劃”,目前已在人工智能的數(shù)理基礎(chǔ)、人工智能的認(rèn)知神經(jīng)基礎(chǔ)、機(jī)器學(xué)習(xí)、智能信息檢索與挖掘、智能體系架構(gòu)與芯片等幾大研究方向匯聚了近百位一流人工智能學(xué)者,鼓勵支持學(xué)者進(jìn)行自由探索。

目前,智源研究院堅(jiān)持“自由探索+目標(biāo)導(dǎo)向”并重,取得了“悟道”大模型等多項(xiàng)首發(fā)、原創(chuàng)級重大成果,已累計支持——發(fā)表國際人工智能頂會頂刊論文1470余篇,申請中國專利82件,獲得發(fā)明專利授權(quán)49件,登記軟件著作權(quán)24項(xiàng)。

接下來,悟道大模型仍將是智源研究院的助推研究方向。在接受媒體采訪時,孫茂松教授提到認(rèn)同大模型發(fā)展將進(jìn)入冷靜期的判斷,大模型發(fā)展現(xiàn)在到了兩萬億的參數(shù),再往上發(fā)展,單純的規(guī)模擴(kuò)大有沒有意義,但是大模型展現(xiàn)出很多奇妙的、深刻的性質(zhì),下一步應(yīng)該研究,如果把這里面幾個問題搞清楚了,有可能讓大模型作為一個引子,引出更深刻的模型上的問題,直著走差不多了,但是把大模型消化透,有可能會有比較大的峰回路轉(zhuǎn)。

“奇妙的性質(zhì)現(xiàn)在還沒有得到很好的解釋,這個東西搞明白了,對腦科學(xué)的研究基本能覆蓋,”孫教授說,“因?yàn)檠芯咳四X有很多限制,但是研究神經(jīng)網(wǎng)絡(luò)人工腦,人工腦所有參數(shù)對我們都是透明的,檢測也是非常精準(zhǔn)的,腦的研究沒有這些好的條件。這塊如果這個問題研究透了,可能會有更深層次的發(fā)展?!?/p>

結(jié)語:中文NLP評測任重道遠(yuǎn)

正如戴瓊海院士在演講中所言,如果說自然語言處理是人工智能皇冠上的一顆明珠,建立科學(xué)的評價標(biāo)準(zhǔn)就需要尋找這顆明珠的本身,如果方向錯了走的越遠(yuǎn)、偏離越多,很有可能找不到。

近十年里智能語言處理突飛猛進(jìn),特別是超大規(guī)模預(yù)訓(xùn)練語言模型等技術(shù)的突破,英文語言能力評價基準(zhǔn)發(fā)揮了至關(guān)重要的指引作用。他希望未來智源指數(shù)能夠在各位學(xué)者、老師和同學(xué)們的共同努力下,不斷制定完善評價體系,團(tuán)結(jié)更多研究機(jī)構(gòu)和大學(xué)、學(xué)者、公司、研究人員,貢獻(xiàn)重要的力量,也期待未來每年都能夠看到基于智源指數(shù)的機(jī)器中文語言能力的進(jìn)展和重要貢獻(xiàn)。