芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

在系統(tǒng)芯片開發(fā)過程中,軟硬件協(xié)同設計愈發(fā)成為一個“基本功”。

相比完全倚仗芯片的硬件設計,與軟件的適配協(xié)同開發(fā)能夠更充分地挖掘算力,使芯片在實際應用中更好發(fā)揮出性能優(yōu)勢。

尤其是高速創(chuàng)新的人工智能(AI)領域,軟件迭代的速度如此之快,固化的硬件設計難以滿足蓬勃生長的算力需求,這促使?jié)M足未來需求的硬件與軟件間的結合變得十分關鍵。

在這個話題上,一直探索將總部位于英國的知名半導體IP供應商Imagination Technologies相當有發(fā)言權。

從IP設計之初,Imagination便將能做“計算”的核放在一起做資源優(yōu)化,目前其產品線覆蓋GPU、AI、CPU三大領域,同時打造有IMG DNN SDK軟件平臺。其中GPU可多核擴展支持6TFLOPS的算力,AI加速器可支持到100TOPS乃至超過5000TOPS的算力。

近日,Imagination Technologies產品總監(jiān)Rob Fisher在與芯東西進行的遠程交流期間,從AI專用芯片IP硬件核設計的角度分享了更多的經驗之談。

勘破AI芯片軟硬協(xié)同設計的難點與要點,對話Imagination產品總監(jiān)▲Imagination Technologies產品總監(jiān)Rob Fisher

Rob Fisher特別強調了一些設計要點:在軟件設計方面,必須具備快速制作新架構原型并測試新架構的能力;在硬件設計方面,必須選擇合適的加速粒度以兼顧靈活性和性能。

在他看來,軟硬協(xié)同設計對于保證最靈活、最具適應性的解決方案至關重要。要獲得最大的收益,應在IP核的設計階段就開始軟硬協(xié)同設計,而不是等到選擇IP的時候才開始。“Imagination重視軟硬協(xié)同設計,并將完整的編程模型視為IP開發(fā)的一部分?!盧ob Fisher說。

從2015年起,Imagination就開始投入研發(fā)AI專用芯片IP核,從2NX、3NX到2020年推出的4NX,其產品一路迭代,性能也從0.5TOPS、12.5TOPS攀升至100TOPS甚至更高。在做AI硬件加速時,Imagination進行了軟硬件一體配套設計,并與芯片公司合作探索如何從IP層面實現(xiàn)軟硬件更深度的融合。

開發(fā)AI硬件和軟件需要投入大量資源,來確保架構的可編程性與適應性足以滿足未來的需求,同時實現(xiàn)高吞吐量以及低功耗、小面積和低帶寬。

在這方面,Imagination已經積累了7年的AI加速器開發(fā)經驗。Rob Fisher認為,沒有足夠的知識積累,很難開發(fā)出像Imagination PowerVR NNA這樣的高性能IP。

他告訴芯東西,Imagination了解在某些情況下,標準的優(yōu)化和工具流程無法充分發(fā)揮硬件的潛力或滿足特定的部署限制(如帶寬),此時可以進行進一步的分析和優(yōu)化。Imagination針對特定的AI和計算工作負載進行了優(yōu)化,例如在同時使用SIFT和計算機視覺算法與機器學習的案例中,Imagination團隊經過分析后在PowerVR GPU上展示了業(yè)界領先的加速能力。

Imagination希望通過產業(yè)化的軟件平臺,將AI框架解析過來的工作通過DNN最終部署到合適的硬件平臺。例如,Imagination的PowerVR GPU和PowerVR NNA,采用一體化的IMG DNN API的設計,使其客戶可以很容易地使用同一套API,向上適配TensorFlow、Caffe、百度飛槳等業(yè)界主流框架,向下適配NNA only或GPU+NNA等不同的硬件方案。

看向未來,要實現(xiàn)硬件對更多AI框架及算法的適配與融合優(yōu)化,Rob Fisher認為加速粒度將是實現(xiàn)軟件優(yōu)化和算子融合的關鍵

軟硬一體已是未來AI發(fā)展的主流趨勢。隨著AI技術更加成熟并進入更廣泛的行業(yè)應用中,業(yè)界已從分工獨立的硬件算力驅動和算法創(chuàng)新驅動走向算法與硬件協(xié)同創(chuàng)新階段。這將需要更多業(yè)界的軟硬件企業(yè)增進合作,探索如何將芯片設計與軟件形成更好的結合,以在更適合的落地場景中將落地部署的硬件性能發(fā)揮到最佳水平。