「AI新青年講座」將邀請(qǐng)世界頂尖AI研究機(jī)構(gòu)和大學(xué)的科研新青年,主講他們?cè)谟?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對(duì)人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。
有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開課教研團(tuán)隊(duì)進(jìn)行郵件(class@zhidx.com)聯(lián)系。
隨著先進(jìn)的神經(jīng)網(wǎng)絡(luò)規(guī)模的增長,AI模型在器件端的部署變得愈發(fā)困難。模型壓縮和軟硬件協(xié)同設(shè)計(jì)是目前最常見的兩種解決方案。
混合精度量化是模型壓縮領(lǐng)域的重要方法。混合精度量化允許神經(jīng)網(wǎng)絡(luò)的每一層擁有不同的量化位寬,從而可以很大程度上保留模型的精確度,但是確定每一層的位寬導(dǎo)致了一個(gè)指數(shù)級(jí)的搜索空間。
來自伯克利人工智能實(shí)驗(yàn)室 (BAIR) 的博士后董鎮(zhèn)等人針對(duì)混合精度量化,提出了HAWQ系列、Q-BERT、ZeroQ等等研究成果。HAWQ系列 (HAWQ、HAWQV2、HAWQV3)使用Hessian矩陣信息來優(yōu)化混合精度量化,Q-BERT則首次嘗試大規(guī)模語言模型的壓縮,ZeroQ提出了不需要樣本的后訓(xùn)練量化范式(Zero-Data PTQ)。
同時(shí),針對(duì)軟硬件協(xié)同設(shè)計(jì)的問題,董鎮(zhèn)博士等人還提出了CoDeNet、HAO、ETA等相關(guān)工作。CoDeNet是一個(gè)可以在FPGA上部署的目標(biāo)檢測(cè)網(wǎng)絡(luò),HAO是在FPGA上進(jìn)行高效推理的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法。
12月2日早10點(diǎn),「AI新青年講座」第177講邀請(qǐng)到伯克利大學(xué)博士后董鎮(zhèn)參與,主講《模型壓縮和軟硬件協(xié)同設(shè)計(jì)的算法研究》。
講者
董鎮(zhèn),伯克利大學(xué)博士后 ;2018年本科畢業(yè)于北大EECS,2022年博士畢業(yè)于伯克利EECS,目前在伯克利做Postdoc,研究的方向有模型壓縮、模型量化、架構(gòu)搜索、軟件硬件協(xié)同設(shè)計(jì);發(fā)表的論文HAWQ系列 (HAWQ、HAWQV2、HAWQV3)使用Hessian矩陣信息來優(yōu)化混合精度量化,論文Q-BERT首次嘗試大規(guī)模語言模型的壓縮,論文ZeroQ提出不需要樣本的后訓(xùn)練量化范式(Zero-Data PTQ),發(fā)表的綜述論文詳細(xì)地介紹了以往的模型量化方法并且系統(tǒng)的對(duì)量化進(jìn)行了歸類和展望。
第177講
主 題
《模型壓縮和軟硬件協(xié)同設(shè)計(jì)的算法研究》
提 綱
1、深度神經(jīng)網(wǎng)絡(luò)的端側(cè)部署困境
2、實(shí)現(xiàn)低精度和混合精度的量化算法庫HAWQ
3、面向FPGA軟硬件協(xié)同設(shè)計(jì)的CoDeNet、HAO
4、量化與協(xié)同設(shè)計(jì)的探討總結(jié)
直 播 信 息
直播時(shí)間:12月2日10:00
直播地點(diǎn):智東西公開課知識(shí)店鋪
成果
HAWQ:
《HAWQ: Hessian AWare Quantization of Neural Networks with Mixed-Precision》
鏈接:
https://arxiv.org/pdf/1905.03696
HAWQV2:
《HAWQ-V2: Hessian Aware trace-Weighted Quantization of Neural Networks》
鏈接:
https://arxiv.org/pdf/1911.03852
HAWQV3:
《HAWQV3: Dyadic Neural Network Quantization》
鏈接:
http://proceedings.mlr.press/v139/yao21a.html
Q-BERT:
《Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT》
鏈接:
https://dong-zhen.com/wp-content/uploads/Q-BERT.pdf
ZeroQ:
《ZeroQ: A Novel Zero Shot Quantization Framework》
鏈接:
https://arxiv.org/pdf/2001.00281.pdf
CoDeNet:
《CoDeNet: Algorithm-hardware Co-design for Deformable Convolution》
鏈接:
https://arxiv.org/abs/2006.08357
HAO:
《HAO: Hardware-aware neural Architecture Optimization for Efficient Inference》
鏈接:
https://arxiv.org/abs/2104.12766