芯東西(公眾號:aichip001)
編輯 | 心緣
GTIC 2020全球AI芯片創(chuàng)新峰會剛剛在北京圓滿收官!在這場全天座無虛席、全網(wǎng)直播觀看人數(shù)逾150萬次的高規(guī)格AI芯片產(chǎn)業(yè)峰會上,19位產(chǎn)學(xué)界重磅嘉賓從不同維度分享了對中國AI芯片自主創(chuàng)新和應(yīng)用落地的觀察與預(yù)判。
在峰會下午場,Cadence公司驗證事業(yè)部產(chǎn)品工程總監(jiān)孫曉陽帶來主題為《AI大時代中的芯片設(shè)計驗證挑戰(zhàn)》的演講。
▲Cadence公司驗證事業(yè)部產(chǎn)品工程總監(jiān)孫曉陽
孫曉陽談及芯片設(shè)計流程存在的三個關(guān)鍵挑戰(zhàn),并講解了Cadence的強(qiáng)大驗證產(chǎn)品套件,以及如何引入AI算法,來應(yīng)對日益高漲的算力需求。
據(jù)孫曉陽分享,增強(qiáng)機(jī)器學(xué)習(xí)能力的新Xcelium ML邏輯仿真平臺在落地實例中,將完全隨機(jī)回歸運(yùn)行的周轉(zhuǎn)時間縮短至原來的1/4,同時能夠達(dá)到原有功能覆蓋率99%。?
以下為孫曉陽演講實錄:
一、芯片設(shè)計難在何處?
在數(shù)據(jù)爆炸的時代,算力毫無疑問成為整個行業(yè)最具挑戰(zhàn)或亟待解決的一個領(lǐng)域。
作為國際知名EDA及IP供應(yīng)商,Cadence希望其產(chǎn)品及方案可以助力大家在AI的海洋里面暢游。在此次峰會上,孫曉陽代表Cadence,分享了他們所觀察到的一些芯片設(shè)計挑戰(zhàn)。

從底向上來看,單一芯片的設(shè)計復(fù)雜度非常高,AI芯片同樣如此,有模擬、數(shù)字和混合信號,有先進(jìn)工藝節(jié)點,及數(shù)十億門芯片的實現(xiàn)與驗證,這些都給芯片設(shè)計帶來復(fù)雜度。
因此,芯片設(shè)計者不僅需考慮單一芯片的設(shè)計,還要考慮芯片周邊整個系統(tǒng)的設(shè)計,包括電磁和熱分析,加上驅(qū)動程序、操作系統(tǒng)和應(yīng)用性能,整體來看整個系統(tǒng)的性能。
在這之上,還要考慮運(yùn)行在系統(tǒng)中心或者系統(tǒng)上的智能應(yīng)用,包括學(xué)習(xí)、感知算法、定制化的用戶體驗,以及針對應(yīng)用工作負(fù)載的計算優(yōu)化等。
基于這些認(rèn)知,Cadence著力于提升所有產(chǎn)品線從芯片設(shè)計到智能應(yīng)用的所有算力,不再是單點或者局部地去看待芯片設(shè)計本身,除了芯片的設(shè)計、封裝等事情外,還考慮到系統(tǒng)的設(shè)計,考慮到用戶可能存在的算法需求、軟硬件協(xié)同需求等問題,并在引入AI算法,與客戶一起應(yīng)對挑戰(zhàn)。
孫曉陽來自Cadence系統(tǒng)設(shè)計和驗證產(chǎn)品線,因此在演講中,他更多分享了關(guān)于系統(tǒng)仿真和驗證相關(guān)的產(chǎn)品和解決方案。

如圖是一個芯片設(shè)計的典型周期,造出一顆芯片往往需要兩三年的時間,當(dāng)然不全是設(shè)計的緣故,比如需花一些時間做架構(gòu)的探索和定義等。從圖中可以看到,軟件起到很大的作用,尤其在AI芯片的設(shè)計領(lǐng)域,由軟件驅(qū)動一個芯片的設(shè)計正變得越來越重要。
這是因為,很多AI結(jié)構(gòu)具有重復(fù)性、通用性的特征,上面跑的軟件及PPA表現(xiàn),是芯片設(shè)計成功的關(guān)鍵。因此軟件越早介入,越能夠保證最后出來的芯片是成功的。
我們看到,也許在有RTL、有代碼之前,可能要先做模型,從全部或部分的模型開始,在上面運(yùn)行各種各樣的軟件,去評估架構(gòu),評估通路、帶寬、存儲等各類參數(shù),來達(dá)到最好的平衡。
Cadence有虛擬的平臺來支撐各種模型的仿真,有各種RTL+部分模型的仿真,有非常知名的Palladium硬件仿真加速平臺,還有基于FPGA的原型驗證平臺Protium X1,能運(yùn)行對性能、功耗、功能等各方面的驗證評估。
二、破解芯片設(shè)計驗證挑戰(zhàn)的三大平臺
今天在中國,人們享受到了物流帶來的便利性,可以看到在城市中,有貨車、卡車、飛機(jī)在城市群周邊做物流快遞。其中前兩者裝卸相對容易,但跑得慢;飛機(jī)跑得最快,但裝卸流程相對復(fù)雜。這里有一個概念,引擎越快,就要做更多準(zhǔn)備工作來使能引擎,以實現(xiàn)更好的性能。
類似的,Cadence提供有并行邏輯仿真平臺Xcelium、硬件仿真加速平臺Palladium、基于FPGA的原型驗證平臺Protium等。Xcelium跑在100Hz水平,Palladium跑在1MHz,而Protium能跑在5MHz。

因為性能不同,應(yīng)用場景也不一樣,Xcelium主要做IP的仿真評估,Palladium面向SoC芯片的仿真驗證,Protium則可以使能完整系統(tǒng)的開發(fā)調(diào)試。
Xcelium相比上一代有很大的性能提升,Cadence在產(chǎn)品中大量使用AI算法來加速性能,包括分布式計算?!翱梢钥吹?,我們一邊面臨AI應(yīng)用帶來的挑戰(zhàn),一邊也在使用AI算法來提升算力。”孫曉陽說。
Xcelium最新發(fā)布的AI-機(jī)器學(xué)習(xí)賦能技術(shù),可以讓驗證的吞吐力得到提升,能使覆蓋率收斂更快,可達(dá)到5倍的速度提升。例如在一家芯片公司應(yīng)用最新的Xcelium ML平臺的案例中,將完全隨機(jī)回歸運(yùn)行中的周轉(zhuǎn)時間速度提升4倍,達(dá)到原來產(chǎn)品99%的功能覆蓋率。

其原理如上圖所示,跑整個覆蓋率回歸是一樣的,有上千條、上萬條的case放到計算中心上運(yùn)行,花這么多的時間才可以結(jié)束,在這個過程當(dāng)中,機(jī)器學(xué)習(xí)算法就可以去學(xué)習(xí)case和覆蓋率之間的關(guān)系,從而創(chuàng)建一個模型,并產(chǎn)生更高效的測試集和相應(yīng)的隨機(jī)化參數(shù),就能在更短的時間(比如1/4、1/5的時間),達(dá)到相當(dāng)?shù)母采w率,從而縮短驗證時間。
還有多核仿真,在仿真回歸中,一定有一些需要花很長時間才能做完的case,針對這些case,如果有足夠的算力,用分布式的計算方式,就能縮短整個驗證回歸時間。
Palladium是業(yè)界的明星產(chǎn)品,主要用作仿真加速,Palladium是基于Cadence自研CPU做出來的平臺,Protium是基于賽靈思的FPGA做出來的平臺。正如剛才提到的,要應(yīng)用更快的引擎,勢必做一些準(zhǔn)備工作。這個準(zhǔn)備工作對用戶來講是一筆開銷,怎么減少這筆開銷呢?Palladium和Protium用的是完全統(tǒng)一的前端編譯系統(tǒng)、編譯流程,這致使一個設(shè)計在Palladium跑起來后,要將它移植到Protium上就會非常簡單。
孫曉陽現(xiàn)場給大家一個參考,有些AI公司在40億門左右,系統(tǒng)廠商在140億門左右,或者其它超大型公司有30億門左右,在Palladium和Protium是這樣的比例。

他也再次強(qiáng)調(diào)軟件驅(qū)動的重要性,軟件越早介入,就能讓芯片或整個開發(fā)周期縮短,一開始用全部虛擬的平臺,有模型就可以開始做很多開發(fā)和評估。
最近很多AI、GPU公司都遇到這樣的需求,它的主力可能是做GPU或AI算法相關(guān)IP,而不是CPU、互連等技術(shù)。于是在開始確定一些架構(gòu)的時候,它們可以拿Cadence的虛擬平臺來建立一個虛擬CPU、真實的GPU或AI IP,然后就能去做開發(fā)和評估。
因此全套軟件可以貫穿從虛擬到部分IP芯片的混合動力仿真到整個芯片回來的整個流程。很多客戶已經(jīng)有部署這個方法學(xué)流程,比如博世主要關(guān)心它的IP,很早就可以介入軟件開發(fā);再比如英偉達(dá)做的是大型的系統(tǒng),當(dāng)Cadence把CPU從RTL中搬出來后,性能可以得到更大的提升。
三、EDA是關(guān)鍵性少數(shù)
接著,孫曉陽談到AI芯片的幾個關(guān)鍵點,包括存儲、互聯(lián)及一些相關(guān)IP。Cadence在這些先進(jìn)制程領(lǐng)域,IP追得非常緊,包括內(nèi)存、DDR、HBM等都緊追最新標(biāo)準(zhǔn)。除了有IP,大家還有驗證IP產(chǎn)品VIP,Cadence在驗證方面也會有相應(yīng)的解決方案,今年已追到像PCIe6這樣的標(biāo)準(zhǔn)。
芯片做功能驗證,還要追求PPA的指標(biāo)等事情。在SoC系統(tǒng)上,除了用Cadence的IP之外,也可以用Cadence System VIP產(chǎn)品去模擬整個數(shù)據(jù)流,從而幫助實現(xiàn)很多系統(tǒng)級分析,還能自動生成test bench,來降低人工的時間。

Cadence還有其它的產(chǎn)品、驗證和設(shè)計的管理,比如有企業(yè)級的驗證管理方案,從計劃到實施到最后的覆蓋率,能滿足跨地域團(tuán)隊驗證的流程;還有調(diào)試,在整個驗證的cycle里面,調(diào)試約占70%的時間,因此調(diào)試工具毫無疑問是最重要的,新的Indago Debug平臺可以提升調(diào)試的效率,并且有開放的接口,性能也在持續(xù)提升。
在演講末尾,孫曉陽總結(jié)說,此次演講主旨很契合當(dāng)下的新基建,過去二三十年間,中國持續(xù)做高速公路的建設(shè)、高鐵的建設(shè),是今天快速物流的前提。而Cadence相當(dāng)于在做基建的工作,提供快速的計算平臺,讓各位的計算訴求在計算平臺上跑得更快。今天的新基建是另外一種,它不是鋼筋水泥,而是數(shù)據(jù)中心、絕對算力、AI芯片這樣的更高級的東西。這些邏輯是一脈相承的。
Cadence采用了大量的算法來持續(xù)提升這些引擎的計算能力。孫曉陽主要代表Cadence的系統(tǒng)設(shè)計和驗證團(tuán)隊,但其產(chǎn)品線遠(yuǎn)不止于驗證部分,還有時限、布線、系統(tǒng)分析等很多其它產(chǎn)品線。Cadence持續(xù)打造“Intelligent System Design”的全流程解決方案,更好地服務(wù)于客戶。
最后,他提到20年前剛進(jìn)入EDA行業(yè)時,一位前輩曾跟他講過的話:“EDA是關(guān)鍵性少數(shù)?!?/p>
就算是兩年前,鮮少有大眾能夠理解EDA是什么,而今天大家都在談EDA,其“關(guān)鍵性”毋庸置疑。
但是少數(shù)還沒有變成多數(shù),孫曉陽非常高興看到這么多人做AI芯片,希望有更多的人投身EDA行業(yè),使其變成關(guān)鍵性的多數(shù),帶來更快的進(jìn)步。
以上是孫曉陽演講內(nèi)容的完整整理。除了孫曉陽外,在本屆GTIC 2020 AI芯片創(chuàng)新峰會期間,清華大學(xué)微納電子系尹首一教授,比特大陸、地平線、燧原科技、黑芝麻智能、壁仞科技、光子算數(shù)、知存科技、億智電子、豪微科技等芯片創(chuàng)企,Imagination、安謀中國等知名IP供應(yīng)商,以及北極光創(chuàng)投、中芯聚源等知名投資機(jī)構(gòu),分別分享了對AI芯片產(chǎn)業(yè)的觀察與思考。如感興趣更多嘉賓演講的核心干貨,歡迎關(guān)注芯東西后續(xù)推送內(nèi)容。