智東西(公眾號(hào):zhidxcom)
編 | 王

智東西5月7日消息,ICLR在其官網(wǎng)公布了ICLR大會(huì)2019的兩篇最佳論文,這兩篇論文在ICLR大會(huì)共收到的大約1600份論文中脫穎而出,它們分別是,加拿大蒙特利爾算法學(xué)習(xí)研究院MILA發(fā)表的NLP深度學(xué)習(xí)模型論文和麻省理工學(xué)院計(jì)算機(jī)科學(xué)與AI實(shí)驗(yàn)室CSAIL發(fā)表的神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)論文。

CSAIL的研究論文“彩票假設(shè):尋找稀疏、可訓(xùn)練的神經(jīng)網(wǎng)絡(luò)”清楚的向我們展示了深度神經(jīng)網(wǎng)絡(luò)如何以更小的規(guī)模、更快的速度創(chuàng)建模型。

AI頂會(huì)ICLR優(yōu)秀論文出爐!MIT“彩票假設(shè)”論文讓神經(jīng)網(wǎng)絡(luò)參數(shù)瘦身90%

這篇論文的研究成果計(jì)劃在5月6日~9日新奧爾良舉行的國(guó)際學(xué)習(xí)代表大會(huì)ICLR上展示。

研究論文表明,深度神經(jīng)網(wǎng)絡(luò)能夠?qū)⒂?xùn)練網(wǎng)絡(luò)的參數(shù)個(gè)數(shù)減少90%以上,降低存儲(chǔ)要求,提高推理的計(jì)算性能。雖然網(wǎng)絡(luò)規(guī)模大幅減小,但它們能夠被訓(xùn)練做出同樣精確的預(yù)測(cè),在某些情況下甚至比原始網(wǎng)絡(luò)更快。

那么到底什么是深度神經(jīng)網(wǎng)絡(luò)?這種網(wǎng)絡(luò)構(gòu)建的模型又能起到什么作用呢?接下來(lái),請(qǐng)通過(guò)下文了解深度神經(jīng)網(wǎng)絡(luò)。

一、什么是深度神經(jīng)網(wǎng)絡(luò)?

深度神經(jīng)網(wǎng)絡(luò),以生物神經(jīng)元為模型的數(shù)學(xué)函數(shù)層,是一種多功能的AI體系結(jié)構(gòu),能夠執(zhí)行從自然語(yǔ)言處理到計(jì)算機(jī)視覺(jué)的各種任務(wù)。

深度神經(jīng)網(wǎng)絡(luò)通常非常大,需要相應(yīng)的大型語(yǔ)料庫(kù),即使是最昂貴的專用硬件,對(duì)它們進(jìn)行訓(xùn)練也可能需要數(shù)天時(shí)間。

如果初始網(wǎng)絡(luò)不需要那么大,為什么不能在一開(kāi)始就創(chuàng)建一個(gè)大小合適的網(wǎng)絡(luò)呢?針對(duì)這個(gè)疑問(wèn),論文合著者Jonathan Frankle博士表示,通過(guò)神經(jīng)網(wǎng)絡(luò),可以隨機(jī)初始化這個(gè)大型網(wǎng)絡(luò)結(jié)構(gòu),并在進(jìn)行大量數(shù)據(jù)進(jìn)行訓(xùn)練之后開(kāi)始工作。

Jonathan Frankle說(shuō):“這種大型結(jié)構(gòu)就像買了一堆彩票,即使只有很少的幾張彩票能讓你變得富有,但我們?nèi)匀恍枰环N技術(shù),在沒(méi)有看到中獎(jiǎng)號(hào)碼的情況下找到獲獎(jiǎng)?wù)??!?/p>

二、深度神經(jīng)網(wǎng)絡(luò)如縮小規(guī)模?

AI頂會(huì)ICLR優(yōu)秀論文出爐!MIT“彩票假設(shè)”論文讓神經(jīng)網(wǎng)絡(luò)參數(shù)瘦身90%

研究人員縮小神經(jīng)網(wǎng)絡(luò)規(guī)模的方法包括消除這些功能(或神經(jīng)元)之間不必要的連接,以使其適應(yīng)功能較低的設(shè)備,這一過(guò)程通常稱為剪枝。(他們特別選擇了具有最低“權(quán)重”的連接,這表明它們是最不重要的。)

接下來(lái),他們?cè)诓粚?duì)連接進(jìn)行剪枝的情況下訓(xùn)練網(wǎng)絡(luò)并重置權(quán)重,在修剪其他連接后,他們確定了有多少連接可以被刪除而不影響模型的預(yù)測(cè)能力。

雖然剪枝后的系數(shù)架構(gòu)會(huì)使訓(xùn)練過(guò)程變得更難,但這也帶來(lái)一個(gè)好處,通過(guò)訓(xùn)練難度的增加提高性能。

Michael?Carbin和Jonathan Frankle在論文中表示,標(biāo)準(zhǔn)的剪枝技術(shù)可以自然地揭示子網(wǎng)絡(luò)的初始化使它們能夠有效地訓(xùn)練。

在一系列條件限制下,通過(guò)不同的網(wǎng)絡(luò)重復(fù)這一修剪過(guò)程數(shù)萬(wàn)次之后,他們報(bào)告稱,他們發(fā)現(xiàn)的AI模型的規(guī)模不到完全連接的父網(wǎng)絡(luò)的10%至20%。

三、沒(méi)有最好只有更好的深度神經(jīng)網(wǎng)絡(luò)

論文合著者兼助理教授Michael Carbin表示,重新設(shè)置一個(gè)表現(xiàn)良好的網(wǎng)絡(luò)通常會(huì)帶來(lái)更好的結(jié)果,這表明無(wú)論我們第一次做什么,都不是最佳選擇,這些模型還有改進(jìn)的空間,可以學(xué)習(xí)如何改進(jìn)自己。

Michael?Carbin和Jonathan Frankle指出,他們?cè)谳^小的數(shù)據(jù)集上進(jìn)行以視覺(jué)為中心的分類任務(wù),把探索為什么某些子網(wǎng)絡(luò)特別擅長(zhǎng)學(xué)習(xí)和快速識(shí)別這些子網(wǎng)絡(luò)的方法留給了未來(lái)的工作。

他們認(rèn)為,深層神經(jīng)網(wǎng)絡(luò)的研究結(jié)果可能對(duì)遷移學(xué)習(xí)產(chǎn)生影響,遷移學(xué)習(xí)是一種為一項(xiàng)任務(wù)訓(xùn)練的網(wǎng)絡(luò)適應(yīng)另一項(xiàng)任務(wù)的技術(shù)。

結(jié)語(yǔ):深度神經(jīng)網(wǎng)絡(luò)已與現(xiàn)代應(yīng)用深度融合

深度神經(jīng)網(wǎng)絡(luò)能夠提取更多的數(shù)據(jù)特征,獲取更好的學(xué)習(xí)效果。目前,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為許多AI應(yīng)用的基礎(chǔ),這項(xiàng)技術(shù)已經(jīng)應(yīng)用于語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域。

借助AI模型解決復(fù)雜問(wèn)題是現(xiàn)在研究領(lǐng)域的重點(diǎn)工作內(nèi)容,深度神經(jīng)網(wǎng)絡(luò)能夠大幅縮小這些模型的規(guī)模,將為AI技術(shù)帶來(lái)更方便、更快速的精準(zhǔn)運(yùn)算。

論文鏈接:https://arxiv.org/abs/1803.03635

原文來(lái)自:VentureBeat