智東西(公眾號:zhidxcom)
文 | Lina
3月9日,由智東西主辦,極果和AWE聯(lián)合舉辦的中國首場AI芯片峰會在上海浦東成功舉辦。本次大會共吸引近萬名觀眾參加,到場人數(shù)比預(yù)計翻了3倍。即使是下午場,依然爆滿,有的觀眾寧愿站著也要聽完全場。在大會現(xiàn)場,近40位人工智能及AI芯片業(yè)界翹楚共聚一堂,系統(tǒng)地探討了AI芯片在2018年的技術(shù)前景和產(chǎn)業(yè)趨勢。
在上午場的演講中,芯片巨頭英偉達(dá)AI技術(shù)中心亞太首席技術(shù)官Simon See博士發(fā)表了主題為《端到端的AI計算》的演講,深入探討了深度學(xué)習(xí)在越來越多的行業(yè)中落地應(yīng)用的同時,數(shù)據(jù)量也隨之增加,由此對于AI芯片的打造者來說帶來了不少新挑戰(zhàn);此外,Simon See博士還詳細(xì)解讀了兩種壓縮神經(jīng)網(wǎng)絡(luò)、增加芯片效率的方法:降低計算精度與剪枝網(wǎng)絡(luò)(Purne)。
以下為Simon See博士演講的要點精析。
一、AI行業(yè)應(yīng)用大幅鋪開,催生各類新興AI芯片
Simon See博士首先介紹道,從2012年的ImageNet比賽開始,深度神經(jīng)網(wǎng)絡(luò)開始逐漸走進(jìn)人們的的視線當(dāng)中,并從此之后一直不斷發(fā)展,以圖像分類為首的深度學(xué)習(xí)應(yīng)用準(zhǔn)確度越來越高、性能越來越強(qiáng)、應(yīng)用領(lǐng)域也越來越廣。
基于這些技術(shù),又逐漸衍生出來基于圖像的物體檢測、場景檢測、風(fēng)格檢測等不同能力,并產(chǎn)生出智慧城市、智能醫(yī)療、安防監(jiān)控等不同行業(yè)應(yīng)用。
由于AI的廣泛鋪開,也催生了目前市場上一大批新興AI芯片創(chuàng)業(yè)公司的出現(xiàn)。PPT里的大多是國外代表公司,中國也差不多有幾十家公司在研發(fā)新型AI芯片。
二、深度神經(jīng)網(wǎng)絡(luò)日趨復(fù)雜,對芯片要求增加
那么為什么會需要這種芯片呢?第一我們需要看到算法。剛剛魏老師也說過,這個算法一直在改變,無論是CNN、DNN、GANs,還有其他Deep Q-Learning,尤其是用在AlphaGo這方面。
這些種種AI芯片興起的另一個原因,則是AI對于算力要求的不斷提升。在2014年的時候,10層神經(jīng)網(wǎng)絡(luò)的計算就需要30多個GPU;而AlphaGo的第一個版本(不是最新那個AlphaZero),在訓(xùn)練時則需要50個GPU訓(xùn)練超過三個星期才能做到。
而在這期間,CNN、RNN、GANs、Deep Q-Learning等算法不斷變得復(fù)雜,更是對深度學(xué)習(xí)計算硬件提出了新挑戰(zhàn)。與2015年相比,翻譯神經(jīng)網(wǎng)絡(luò)的復(fù)雜度提高了10倍;與2014年相比,語音神經(jīng)網(wǎng)絡(luò)的復(fù)雜度提高了30倍;而與2012年相比,圖像深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜度則提高了350倍。
除了深度神經(jīng)網(wǎng)絡(luò)日趨復(fù)雜之外,數(shù)據(jù)量也在不斷增加。舉個例子,一個采集225×225圖像、采用ResNet-50網(wǎng)絡(luò)的無人駕駛車的攝像頭需要230Gops/30fps的計算量,需要運(yùn)行77.2億次計算。而一臺無人車需要12-24個攝像頭,其計算量以指數(shù)級增加。
以上種種原因,使得AI對于硬件計算的要求越來越高。不過如果我們仔細(xì)研究神經(jīng)網(wǎng)絡(luò),就會發(fā)現(xiàn)深度學(xué)習(xí)中的基本處理是最簡單的矩陣運(yùn)算,如果你可以把他們?nèi)慷挤旁谝黄鸬模憔涂梢愿叨炔⑿谢赜嬎?。而最早由圖像處理起家的英偉達(dá),其GPU芯片設(shè)計本就是為了矩陣運(yùn)算而生的,隨后英偉達(dá)又在GPU中加入了深度學(xué)習(xí)相關(guān)加速。
三、神經(jīng)網(wǎng)絡(luò)壓縮的兩大發(fā)展方向
神經(jīng)網(wǎng)絡(luò)的壓縮與簡化則是一個學(xué)術(shù)界與工程界都在研究討論的重要問題。目前的深度神經(jīng)網(wǎng)絡(luò)普遍較大,無論是在云端還是在終端,都會影響網(wǎng)絡(luò)速度,增大功耗。
在演講中,Simon See博士提到了優(yōu)化AI芯片效率的這兩大方向:一個是降低計算精度。圖中不同精度的數(shù)值的計算功耗,可以看到精度越高、功耗越大。為此,英偉達(dá)推出TensorRT,它是一款可編程推理加速器,能加速現(xiàn)有和未來的網(wǎng)絡(luò)架構(gòu),包含一個為優(yōu)化在生產(chǎn)環(huán)境中部署的深度學(xué)習(xí)模型而創(chuàng)建的庫,可獲取經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)(32位或16位的數(shù)字),并通過降低精度來優(yōu)化網(wǎng)絡(luò)運(yùn)算。
此外,還可以通過網(wǎng)絡(luò)來進(jìn)行網(wǎng)絡(luò)剪枝(Purne),先構(gòu)造好整個算法網(wǎng)絡(luò),然后再嘗試消除多余的節(jié)點,壓縮網(wǎng)絡(luò)大小。
結(jié)語:從云到端、從硬到軟
在演講中,Simon See博士對于AI芯片保持著十分積極的態(tài)度,他認(rèn)為,從交通到健康,越來越多的行業(yè)開始擁抱AI;而隨著數(shù)據(jù)量的激增,AI芯片也變得越來越重要。
不過,由于AI芯片仍屬于一個技術(shù)早期的前沿科技產(chǎn)品,在有了芯片硬件之后,配套的軟件生態(tài)(如編譯器器、模擬器、開發(fā)者套件等)也需要配合跟上,打造從云到端、從硬到軟的AI環(huán)境。






