芯東西(公眾號:aichip001)
編輯 |? GACS

9月14日~15日,2023全球AI芯片峰會(GACS 2023)在深圳南山圓滿舉行。在9月15日的AI大算力芯片專場上,芯和半導(dǎo)體產(chǎn)品應(yīng)用總監(jiān)蘇周祥分享了主題為《AIGC時(shí)代算力芯片Chiplet設(shè)計(jì)的EDA解決方案》的主題演講。

芯和半導(dǎo)體產(chǎn)品應(yīng)用總監(jiān)蘇周祥談道,單顆SoC向模塊化SoC的Chiplet(常譯為“芯粒”、“小芯片”)架構(gòu)快速演進(jìn)過程中,Chiplet對單顆SoC的拆分、組合和架構(gòu)規(guī)劃問題,給傳統(tǒng)的設(shè)計(jì)流程帶來了很大的挑戰(zhàn)。Chiplet從系統(tǒng)最初的設(shè)計(jì)到最終的簽核,都需要新的EDA工具、新的思路和新的方法學(xué)。

芯和半導(dǎo)體提供一個(gè)圍繞Chiplet產(chǎn)業(yè)的全新EDA平臺,蘇周祥說道,全新平臺需要支持系統(tǒng)級連接、堆棧管理、層次化設(shè)計(jì),還需要在物理實(shí)現(xiàn)方面協(xié)同設(shè)計(jì)環(huán)境、支持各領(lǐng)域的工具、多芯片3D布局規(guī)劃和布線

因此,芯和半導(dǎo)體推出專為3DIC Chiplet量身定做的設(shè)計(jì)仿真全流程EDA平臺,這是一個(gè)針對Chiplet的完整的包括3DIC設(shè)計(jì)、SI/PI/多物理場分析的解決方案。該平臺擁有AI驅(qū)動(dòng)的網(wǎng)格剖分技術(shù),以及云計(jì)算加載的分布式并行計(jì)算能力,還支持裸芯片、中介層和基板的聯(lián)合仿真引擎技術(shù)。

以下是蘇周祥的演講實(shí)錄

大家好!我來自芯和半導(dǎo)體,有些人對芯和半導(dǎo)體比較熟悉,有些人是第一次聽說,它是國內(nèi)一家EDA軟件公司,從2010年成立到現(xiàn)在已有14年。我還注意到,我們是這次AI芯片峰會的演講嘉賓里唯一一家做Chiplet EDA的公司。

我的分享有這幾個(gè)部分,一是Chiplet的發(fā)展演進(jìn),二是在設(shè)計(jì)Chiplet過程中的關(guān)鍵技術(shù),三是芯和半導(dǎo)體為Chiplet設(shè)計(jì)提供的EDA設(shè)計(jì)仿真平臺,最后是一些真實(shí)的案例。

一、Chiplet迎爆發(fā)風(fēng)口,EDA工具是其實(shí)現(xiàn)的關(guān)鍵技術(shù)之一

在1965年的時(shí)候,摩爾老先生提到用小型功能構(gòu)建大型系統(tǒng),分別進(jìn)行封裝和互聯(lián),性價(jià)比可能會更高。那時(shí)候,摩爾已經(jīng)預(yù)測到先進(jìn)封裝的時(shí)代會到來。隨著這么多年的發(fā)展,隨著Chiplet被AMD/英特爾等成功應(yīng)用,現(xiàn)在Chiplet技術(shù)應(yīng)用的越來越廣泛,Chiplet通過很多功能小芯粒實(shí)現(xiàn)了復(fù)雜的系統(tǒng)集成。

我們回顧一下Chiplet的發(fā)展過程。

第一,隨著摩爾定律的放緩,先進(jìn)芯片工藝越來越接近于工藝的極限,性能提升也開始放緩。剛剛發(fā)布的蘋果iPhone 15里的A17 Pro芯片,經(jīng)過近期的測試,大家都可以看到,它的性能其實(shí)并沒有想象得那么炸裂。

第二,工藝制程從16nm到7nm、5nm、3nm,設(shè)計(jì)成本越來越高,投資回報(bào)所需的銷售額非常巨大,這不是一般公司玩得起的。

第三,隨著大算力芯片的面積越來越大,已經(jīng)接近或超過了光罩的極限,這時(shí)候良率也出現(xiàn)了各種各樣的問題。為解決設(shè)計(jì)成本,解決良率,解決芯片工藝的問題,模塊化的SoC開始興起,就是我們所說的Chiplet。

Chiplet的優(yōu)點(diǎn)是什么呢?可以用更小的芯粒尺寸帶來更高的良率,并突破光罩尺寸的限制,降低制造成本。芯粒具有更多的工藝節(jié)點(diǎn)選擇,可以將最佳節(jié)點(diǎn)的芯粒進(jìn)行混合集成。通過芯粒的復(fù)用,提高研發(fā)效率,縮短上市周期。

目前為止,比較成功的一些Chiplet應(yīng)用包括:1)AMD MI300,它是首個(gè)CPU和GPU的集成;2)英特爾Ponte Vecchio,它主要是AI和GPU的集成;3)英偉達(dá)H100,這是最新的GPU Chiplet。這些Chiplet應(yīng)用的芯片可以說明:Chiplet先進(jìn)封裝是除了先進(jìn)芯片工藝之外,一個(gè)新的可以超越摩爾的賽道。

要實(shí)現(xiàn)Chiplet,我們需要關(guān)注哪些技術(shù),或需要解決哪些技術(shù)?

第一個(gè)是die-to-die互聯(lián)。Chiplet是多個(gè)小芯粒的互連集成,我們首先要解決的就是互連標(biāo)準(zhǔn)的問題。理論上來說,Chiplet里的每一個(gè)小芯粒可能來自于不同的廠商,不同廠商的小芯粒要進(jìn)行互連,就需要遵循一定接口標(biāo)準(zhǔn)。

國外的UCIe協(xié)議是Chiplet的標(biāo)準(zhǔn)之一,可喜的是,國內(nèi)也已經(jīng)出現(xiàn)了好幾個(gè)Chiplet的標(biāo)準(zhǔn)。昨天,北極雄芯馬總所演示的一顆芯片就是基于國內(nèi)Chiplet標(biāo)準(zhǔn)而設(shè)計(jì)制造的。在標(biāo)準(zhǔn)上,我們國內(nèi)目前做得還算不錯(cuò),但是整個(gè)標(biāo)準(zhǔn)的完善可能還需要一段時(shí)間。

其次,對于die-to-die之間的互連,我們要保證信號與信號之間的延遲,而CCD到IOD之間的延遲需要滿足一定的要求和規(guī)范,這涉及到信號完整性和電源完整性的問題。

第二是先進(jìn)封裝。關(guān)于Chiplet的封裝設(shè)計(jì),對于不同芯粒之間的互連,如何滿足它的延時(shí)?其次,對于大功率芯片,如何設(shè)計(jì)它的供電和散熱?在芯片面積很大的時(shí)候,如何考慮良率,如何設(shè)計(jì)它的翹曲?這都是封裝過程中非常重要的問題,包括無源器件集成、寄生效應(yīng)的抽取、成本和可靠性的控制等等。

正如昨天的某位演講嘉賓提到的那樣,封裝工藝的發(fā)展對芯片和Chiplet的發(fā)展非常重要,如果我們不能有非常好的封裝工藝,那么我們就需要復(fù)雜的設(shè)計(jì)和更高的速率去規(guī)避封裝上的問題,所以以后封裝對芯片的設(shè)計(jì)會越來越重要。

封裝工藝經(jīng)過多年發(fā)展,已經(jīng)走過了好幾個(gè)階段,像70年代的MCM,2000年有了SiP(System in a package),2010年出現(xiàn)2.5D IC,2020年出現(xiàn)BUMP-LESS,到如今異構(gòu)集成的方式,每一種方式都可以協(xié)助我們?nèi)プ霾煌枨蟮男酒庋b設(shè)計(jì)。

第三個(gè)是設(shè)計(jì)流程和EDA工具,這也是非常重要的。Chiplet是一個(gè)新的事物,一個(gè)新的先進(jìn)封裝模式,傳統(tǒng)的EDA工具不能滿足新的設(shè)計(jì)流程,所以需要一個(gè)新的設(shè)計(jì)流程和新的EDA工具。

芯和半導(dǎo)體認(rèn)為,Chiplet的設(shè)計(jì)流程需要滿足這么幾個(gè)要求:

芯和半導(dǎo)體蘇周祥:打造Chiplet專屬EDA工具,全面支持2.5D/3DIC的Chiplet設(shè)計(jì)丨GACS 2023

一是在架構(gòu)方面,需要系統(tǒng)級的連接,需要堆?;芾砗蛯哟位O(shè)計(jì)。在這方面,開發(fā)者可以選擇聚合方式,即由多個(gè)芯粒(或小芯片)組裝成Multi-Die系統(tǒng);也可以選擇分解方式,即將應(yīng)用分解到多個(gè)芯粒上。此外,開發(fā)者還必須選擇Die-to-Die接口的協(xié)議、位置和尺寸,以及每個(gè)芯粒的工藝和封裝技術(shù)。

二是在物理實(shí)現(xiàn)方面,需要協(xié)同化設(shè)計(jì)環(huán)境、跨領(lǐng)域工程變更、多芯片3D布局規(guī)劃和布線以及統(tǒng)一數(shù)據(jù)庫。

三是在分析的時(shí)候,我們需要進(jìn)行片上封裝電磁協(xié)同仿真,也需要考慮多物理場分析,像整個(gè)芯片里信號、電源、熱、應(yīng)力多物理場之間的耦合;另外和布線工具可以做到無縫集成。

四是在驗(yàn)證過程中需要考慮芯片工藝規(guī)則,也需要考慮封裝里的工藝規(guī)則,甚至需要考慮系統(tǒng)級組裝的工藝規(guī)則。

二、芯和半導(dǎo)體全面支持2.5D Interposer、3DIC和Chiplet設(shè)計(jì)

對于以上Chiplet所面臨的挑戰(zhàn),芯和半導(dǎo)體通過十幾年的工作和開發(fā),推出了基于Chiplet的設(shè)計(jì)和仿真的EDA軟件平臺。

在設(shè)計(jì)方面,客戶可以基于統(tǒng)一數(shù)據(jù)庫的EDA設(shè)計(jì)平臺,從多芯片chiplet的原型構(gòu)建、架構(gòu)探索、早期系統(tǒng)級仿真分析到Interposer物理實(shí)現(xiàn)以及分析驗(yàn)證,都在同一個(gè)平臺環(huán)境中完成。

在芯和半導(dǎo)體推出的多物理場仿真EDA平臺上,客戶可以完成Chiplet封裝的信號完整性的仿真以及電源完整性的仿真,甚至可以進(jìn)行評估熱分布和熱傳遞的評估。同時(shí)在較熱的情況下,客戶可以評估應(yīng)力的變化。總得來說,芯和半導(dǎo)體提供了一個(gè)集成信號、熱、多物理場仿真的完整解決方案。

芯和半導(dǎo)體蘇周祥:打造Chiplet專屬EDA工具,全面支持2.5D/3DIC的Chiplet設(shè)計(jì)丨GACS 2023

▲芯和Chiplet設(shè)計(jì)平臺

首先,在架構(gòu)規(guī)劃階段,最大的一個(gè)挑戰(zhàn)是:在項(xiàng)目開始時(shí),可供使用的設(shè)計(jì)數(shù)據(jù)少之又少,而此時(shí)又必須做出許多重要的決策。多芯片chiplet給架構(gòu)設(shè)計(jì)帶來了的新的問題,芯片設(shè)計(jì)過程中的每一個(gè)選擇都應(yīng)要從整個(gè)系統(tǒng)的角度做考量,以消除可能對系統(tǒng)產(chǎn)生的不利影響,例如,接口的不同實(shí)現(xiàn)方式、協(xié)議的選擇、裸片是并排放置還是垂直堆疊、使用什么類型的封裝更為合適,等等。

另外,還必須從系統(tǒng)級的角度對功耗和性能進(jìn)行分析。例如,在3D堆疊設(shè)計(jì)中,散熱會變得更加困難,因此熱傳遞和供電問題往往更加嚴(yán)重。開發(fā)者需要找到一種方法,將電力有效地從低層的裸片傳遞給頂層的裸片,以消除散熱問題。這些可以通過統(tǒng)一的設(shè)計(jì)平臺基于虛擬原型構(gòu)建,快捷規(guī)劃bump/TSV陣列,建立不同的分析模型,進(jìn)行系統(tǒng)級的架構(gòu)探索和早期分析,建立合理的系統(tǒng)架構(gòu)、優(yōu)化性能、功耗和散熱關(guān)鍵性能指標(biāo),并圍繞幾個(gè)關(guān)鍵領(lǐng)域做出的早期架構(gòu)決策,最終得到能夠?qū)崿F(xiàn)多芯片通信的吞吐量和延遲、系統(tǒng)功耗、多芯片堆疊的散熱和熱管理等關(guān)鍵性能指標(biāo)的最佳架構(gòu)解決方案。

其次,對于要處理和實(shí)現(xiàn)超大規(guī)模的bump、TSV、chiplet間互連以及chiplet與封裝基板間的互連,設(shè)計(jì)平臺必需具備足夠的規(guī)模和高效的物理布線能力,尤其是對于特定的布線模式,例如HBM、UCIe等特定的接口互連,需要定制化的高效高質(zhì)的布線,這些要求和需求在這個(gè)設(shè)計(jì)平臺中可以全面支持。

芯和半導(dǎo)體蘇周祥:打造Chiplet專屬EDA工具,全面支持2.5D/3DIC的Chiplet設(shè)計(jì)丨GACS 2023

▲芯和Chiplet設(shè)計(jì)EDA多物理場仿真平臺

在上述EDA多物理場解決方案里,最核心的技術(shù)是電磁場仿真引擎,芯和半導(dǎo)體是目前國內(nèi)唯一一家可以支持跨尺度電磁場仿真引擎技術(shù)的EDA平臺的企業(yè)。

為什么要支持跨尺度呢?在進(jìn)行Chiplet設(shè)計(jì)時(shí),會涉及到一些片內(nèi)的結(jié)構(gòu),片內(nèi)的結(jié)構(gòu)基本要到微米量級,甚至零點(diǎn)級微米的量級。二是設(shè)計(jì)過程涉及到Interposer(中介層)尺度,臺積目前可以將Interposer尺度做到一點(diǎn)幾微米,有些是在二點(diǎn)幾微米;國內(nèi)可以做到6μm、8μm。其次,設(shè)計(jì)過程還涉及有機(jī)基板的工藝,以及PCB的工藝,這種工藝涉及幾十微米,甚至幾百微米的結(jié)構(gòu)。

對于Interposer尺度變化非常劇烈的模型,仿真引擎一定要支持跨尺度的電磁場仿真技術(shù),不然在有限的時(shí)間內(nèi)就不能得到精度比較高的結(jié)果。

另外一個(gè)核心技術(shù)是網(wǎng)格,在電磁場仿真里最重要的就是網(wǎng)格。芯和半導(dǎo)體或是國內(nèi)最早開發(fā)自動(dòng)化、智能化網(wǎng)格技術(shù)的企業(yè)之一。對于一個(gè)模型,芯和可以在保證精度的情況下,得到最好的網(wǎng)格分布。電磁場仿真里的高性能分布式計(jì)算也很重要,隨著模型越來越大,很多模型都不能用一臺機(jī)器或兩三臺機(jī)器去求解,需要支持分布式的計(jì)算。分布式計(jì)算可以將多臺機(jī)器聯(lián)合起來當(dāng)成一臺機(jī)器去用,這樣可以求解更大的模型,做更快的電磁場仿真計(jì)算。

在芯片、中階層、封裝的聯(lián)合電磁場仿真中,最重要的就是中間的Interposer,它是一個(gè)硅轉(zhuǎn)接板,我們需要去考慮上面的信號完整性。同時(shí),上面的die和下面的Substrate(基板)對信號也會帶來一些耦合的影響,對power(電源模塊)也會帶來影響,所以需要把上面的die和下面的Interposer和Substrate做一個(gè)整體的模型去求解,以及進(jìn)行聯(lián)合仿真,進(jìn)行分布式的仿真。

經(jīng)過芯和客戶的評估,芯和的Chiplet EDA仿真引擎相較于業(yè)界的高端工具,仿真速度可以加快10倍,內(nèi)存可以降低20倍。這是非常大的進(jìn)步,特別是內(nèi)存方面,如果內(nèi)存占比減少20倍,那就意味著仿真的模型可以比競品大20倍。在仿真速度和內(nèi)存占比上來說,芯和的Chiplet EDA仿真工具在全球范圍內(nèi)遙遙領(lǐng)先。

芯和半導(dǎo)體蘇周祥:打造Chiplet專屬EDA工具,全面支持2.5D/3DIC的Chiplet設(shè)計(jì)丨GACS 2023

▲大容量跨尺度引擎提供頂尖的仿真速度和效率

另外,芯和的Chiplet EDA仿真平臺集成了很多Chiplet互連結(jié)構(gòu)模板。在做芯片封裝的過程中,主要會碰到RDL和TSV這兩種結(jié)構(gòu)。(如圖)上面一排主要是五層的CoWoS或是三層的CoWoS結(jié)構(gòu),有shielding的和沒有shielding的RDL模板。下面主要是針對于TGV、TSV、TCV和TSV矩陣,還有BGA過孔模板。各種各樣的模板可以支撐工程師在沒有GDS的時(shí)候,通過前期設(shè)計(jì)參數(shù),快速地生成一個(gè)模型,快速地評估RDL與TSV對整個(gè)信號通道或?qū)﹄娫赐ǖ赖膿p耗。

芯和半導(dǎo)體蘇周祥:打造Chiplet專屬EDA工具,全面支持2.5D/3DIC的Chiplet設(shè)計(jì)丨GACS 2023

▲內(nèi)置多種參數(shù)化走線與過孔模板

另外也可以支持AMI model或IBIS model,我們可以通過導(dǎo)入AMI和IBIS model,計(jì)算信號在時(shí)域上的波形和眼圖,評估眼圖是不是夠大,是不是滿足SPEC的要求。

在設(shè)計(jì)Chiplet過程中,功耗是非常重要的部分,設(shè)計(jì)的好壞會直接影響芯片的性能,以及這顆芯片到底可以跑多高的速率。有人說對于Chiplet設(shè)計(jì),電源是非常重要、非常難的一個(gè)設(shè)計(jì)點(diǎn),這是有一定道理的。

在芯和的多物理仿真平臺上,客戶可以對Chiplet先進(jìn)封裝的電源完整性做DC和AC的快速仿真,也可以快速地求解每一個(gè)power平面電阻大概在什么范圍內(nèi),也可以求解需要多少顆電容,以及電容組合的優(yōu)化。

隨著國外UCIe標(biāo)準(zhǔn)和國內(nèi)小芯片標(biāo)準(zhǔn)的興起,芯和的Chiplet仿真平臺也在第一時(shí)間支持了各種標(biāo)準(zhǔn)、各種協(xié)議,大家在使用過程中可以直接按照UCIe標(biāo)準(zhǔn)去做數(shù)據(jù)的處理和查看,非常方便。

芯和的Chiplet仿真平臺還支持很多的工藝和接口,包括臺積電CoWos-S/R/L、臺積電InFO,還有英特爾EMIB和三星I/R-Cube;在接口方面,有HBM 2/2E/3,還有GDDR 6/5/4、PCI-e 6.0/5.0/4.0。在導(dǎo)入格式方面,該平臺支持GDS + iRCX,還有Allegro MCM/SiP、ODB++;在互連這一方面,可以支持GSGSG結(jié)構(gòu)和沒有GSGSG的結(jié)構(gòu)。

三、技術(shù)自主可控,融入全球Chiplet頭部供應(yīng)商生態(tài)圈

來看三個(gè)比較有代表性的案例,涉及HBM、TSV和SerDes結(jié)構(gòu),這也是在Interposer里最主要的三種結(jié)構(gòu)。

首先介紹第一個(gè)HBM的案例。每一個(gè)HBM的堆棧里有8個(gè)channel(通道),每個(gè)channel里有128個(gè)DQ(I/O通道),總共有1024個(gè)DQ,在這么寬的數(shù)據(jù)帶寬下面要仿真,其實(shí)壓力是非常大的。這個(gè)模型有96個(gè)net,包括了VDD/VSS平面,案例一共仿真了10個(gè)小時(shí)。右邊是S參數(shù)的回?fù)p/差損和它的TDR,加上IBIS模型之后的眼圖。

芯和半導(dǎo)體蘇周祥:打造Chiplet專屬EDA工具,全面支持2.5D/3DIC的Chiplet設(shè)計(jì)丨GACS 2023

這是TSV仿真的case,從右邊(如圖)可以看得出來,由于TSV周圍有一圈二氧化硅,把中間的銅導(dǎo)體和半導(dǎo)體硅做了隔離,會對插損/回?fù)p造成明顯效應(yīng)。在數(shù)據(jù)信號通道或電源通道過程中,我們需要考慮TSV所帶來的影響,另外我們需要Signal?TSV過孔和Ground?TSV,組成最好的TSV pattern。

芯和半導(dǎo)體蘇周祥:打造Chiplet專屬EDA工具,全面支持2.5D/3DIC的Chiplet設(shè)計(jì)丨GACS 2023

在1μm coating(涂層)、0.5μm coating和沒有coating過程中,這是芯和進(jìn)行仿真出來的結(jié)果(如圖),我們大概仿真了56分鐘。

再列舉一個(gè)SerDes的模型,也就是Silicon Interpose上的die-to-die的模型。里有22個(gè)差分對,一共有44個(gè)net。通過全3D的網(wǎng)格剖分以及HPC,我們可以把整個(gè)S參數(shù)如回?fù)p/插損等,近端串?dāng)_和遠(yuǎn)端串?dāng)_都完全抽取出來。通過客戶那邊的測試對比,我們平臺的精度完全滿足客戶的工程需要。整個(gè)仿真跑了大概6個(gè)小時(shí),這也是在競品的工具里很難跑得出來的。

在全球范圍內(nèi),芯和的Chiplet EDA仿真平臺,不管是速度還是精度都做到了遙遙領(lǐng)先。

在AIGC時(shí)代,大算力需求推動(dòng)單顆SoC向模塊化SoC的Chiplet快速地演進(jìn)。我們需要解決die-to-die的互連問題,需要開發(fā)先進(jìn)封裝異構(gòu)集成的技術(shù),也需要解決EDA工具所帶來的問題。芯和半導(dǎo)體提供完整的Chiplet EDA解決方案,且已經(jīng)被國內(nèi)外多家Chiplet公司所采用。

從2010年起,芯和半導(dǎo)體就一直致力于Chiplet的設(shè)計(jì)、多物理場仿真工具的開發(fā),芯和所有的開發(fā)成果都是自主可控的自有IP,目前這些EDA工具支撐了國內(nèi)外500多家客戶的使用,為全球的客戶提供了EDA解決方案。

在座的朋友如果有對Chiplet EDA這一部分感興趣,也可以隨時(shí)和我們交流。謝謝大家!

以上是蘇周祥演講的完整整理。