智東西(公眾號(hào):zhidxcom)
編譯 | 陳家陽
編輯 | 漠影

智東西4月17日報(bào)道,近日,Nature雜志對(duì)21世紀(jì)以來引用次數(shù)最多的25篇論文進(jìn)行了分析,揭示出一個(gè)有趣的現(xiàn)象:在科學(xué)界,講述方法和軟件的論文比著名的科學(xué)發(fā)現(xiàn)更常被引用,這些論文主要集中在人工智能(AI)、研究方法或綜述、癌癥統(tǒng)計(jì)和軟件研究等領(lǐng)域。

特別值得關(guān)注的是,于2016年發(fā)表的《應(yīng)用于圖像識(shí)別中的深度殘差學(xué)習(xí)(Deep Residual Learning for Image Recognition)》成為21世紀(jì)被引用次數(shù)最多的論文,何愷明是該文第一作者,當(dāng)時(shí)正在北京的微軟亞洲研究院工作。

此外,Nature在這篇分析中還討論了其他高被引論文,包括改進(jìn)的圖像處理網(wǎng)絡(luò)架構(gòu)“U-net”,開源的“隨機(jī)森林”(random forest)機(jī)器學(xué)習(xí)算法,谷歌研究人員發(fā)表的有關(guān)Transformer模型的論文等。

Nature公布21世紀(jì)高被引論文,何愷明的ResNet登頂

▲Nature統(tǒng)計(jì)的21世紀(jì)10篇被引用量最高的論文

一、ResNet研究位居榜首,何愷明是第一作者

作為計(jì)算機(jī)視覺和AI領(lǐng)域的頂級(jí)科學(xué)家,何愷明在學(xué)術(shù)生涯早期便展現(xiàn)出了非凡的研究才能,在微軟亞洲研究院工作期間,因提出深度殘差網(wǎng)絡(luò)(ResNet)而名聲大噪。

ResNet解決了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度消失問題(即隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)的性能反而可能下降),使得研究人員能夠訓(xùn)練約150層的神經(jīng)網(wǎng)絡(luò),比以往使用的神經(jīng)網(wǎng)絡(luò)層數(shù)多5 倍以上。

該論文在2015年底作為預(yù)印本發(fā)布,2016年正式發(fā)表,隨后于ImageNet競賽中得到驗(yàn)證,并促進(jìn)各種圖像識(shí)別任務(wù)取得了突破性進(jìn)展。

ResNet的影響力不僅限于計(jì)算機(jī)視覺領(lǐng)域,其思想也被廣泛應(yīng)用于現(xiàn)代深度學(xué)習(xí)模型中。能夠下棋的AlphaGo、預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold以及大語言模型GPT等AI工具的出現(xiàn),都離不開ResNet,它使神經(jīng)網(wǎng)絡(luò)能夠達(dá)到前所未有的深度,重新定義了深度學(xué)習(xí)的潛力邊界。

“在ResNet之前,‘深度學(xué)習(xí)’并沒有那么深入,”目前在麻省理工學(xué)院工作的何愷明說。

作為“深度學(xué)習(xí)三巨頭”之一的楊立昆,曾在采訪中對(duì)ResNet研究取得的成就表示贊賞,“這顯示了全球范圍內(nèi)都存在著杰出的科學(xué)家,并且創(chuàng)新的靈感可以源自世界的任何一個(gè)角落?!?/p>

二、21世紀(jì),AI領(lǐng)域論文的黃金時(shí)代

“AI教父”杰弗里·辛頓(Geoff Hinton)表示,AI領(lǐng)域的論文在引用方面具有天然優(yōu)勢,這些領(lǐng)域的論文與許多學(xué)科相關(guān),特別是在21世紀(jì)AI行業(yè)實(shí)現(xiàn)快速發(fā)展。

不少人把深度學(xué)習(xí)革命歸功于辛頓在2012年合著的一篇論文,其中提到的名為“AlexNet”的網(wǎng)絡(luò),在識(shí)別和標(biāo)記圖像時(shí)以壓倒性優(yōu)勢擊敗了其他方法。這篇論文在此次排名中位列第八,而辛頓另一篇關(guān)于深度學(xué)習(xí)的綜述論文排名第十六。

在提出AlexNet三年后,一篇有影響力的論文介紹了名為“U-net”的網(wǎng)絡(luò),可以用更少的訓(xùn)練數(shù)據(jù)來處理圖像。該論文現(xiàn)在排名第十二位。其合著者之一奧拉夫·倫內(nèi)伯格(Olaf Ronneberger)因該論文被DeepMind招募。

2017年,谷歌研究人員在發(fā)表的《“注意力就是你所需要的(Attension is All You Need)”》 一文中首次提出了Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),通過自注意力機(jī)制(self-attention)來提升大型語言模型的性能。這篇論文在本世紀(jì)高被引論文中排名第七。

在機(jī)器學(xué)習(xí)領(lǐng)域,許多早期的學(xué)術(shù)論文是開源的,這也提高了其引用次數(shù)?!峨S機(jī)森林(Random forest)》得益于提出開源、免費(fèi)且易于使用的機(jī)器學(xué)習(xí)算法,而引用量激增,在此次排名中位列第六。

結(jié)語:科學(xué)方法與軟件是影響論文引用量的重要因素

引用,是作者在文獻(xiàn)中核實(shí)知識(shí)來源的方式,是衡量論文影響力的重要標(biāo)準(zhǔn)之一。

Nature通過研究分析表明,被引用次數(shù)最多的論文,通常不是介紹著名的科學(xué)發(fā)現(xiàn),而是傾向于描述科學(xué)方法或軟件,即科學(xué)家所依賴的基礎(chǔ)工具。

“科學(xué)家們說他們重視方法、理論和經(jīng)驗(yàn)發(fā)現(xiàn),但實(shí)際上方法被引用得更多,”密歇根大學(xué)安娜堡分校的社會(huì)學(xué)家米沙·特普利茨基(Misha Teplitskiy)指出。這些高引用論文,不僅展示了它們在學(xué)術(shù)界的影響力,也反映了科學(xué)界對(duì)方法的廣泛認(rèn)可和應(yīng)用。

來源:Nature、澎湃新聞