芯東西(公眾號(hào):aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(huì)(GACS 2024)于9月6日~7日在北京舉行,大會(huì)由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識(shí)分享社區(qū)智猩猩發(fā)起舉辦。在7日的主會(huì)場(chǎng)邊緣/端側(cè)AI芯片專場(chǎng)上,云天勵(lì)飛副總裁、芯片業(yè)務(wù)線總經(jīng)理李愛(ài)軍以《面向大模型的國(guó)產(chǎn)工藝邊緣AI芯片架構(gòu)創(chuàng)新與展望》為題發(fā)表演講。

隨著大模型推動(dòng)物理世界的智能化演進(jìn),更多的應(yīng)用將在邊緣側(cè)完成。大模型使邊緣AI場(chǎng)景面臨新的算力挑戰(zhàn)算力需求大、帶寬要求高、計(jì)算擴(kuò)展性強(qiáng)。李愛(ài)軍談道,國(guó)產(chǎn)工藝邊緣AI芯片要應(yīng)對(duì)挑戰(zhàn),架構(gòu)創(chuàng)新是關(guān)鍵

面向大模型所帶來(lái)的新的邊緣AI計(jì)算場(chǎng)景,云天勵(lì)飛研發(fā)國(guó)內(nèi)首顆基于國(guó)產(chǎn)工藝Chiplet系列化邊緣AI芯片,采用“算力積木”的理念,設(shè)計(jì)了D2D Chiplet/C2C Mesh大模型推理架構(gòu),從芯片設(shè)計(jì)、制程工藝、基板選擇到封裝測(cè)試均用國(guó)產(chǎn)技術(shù),算力覆蓋8TOPS~256TOPS,滿足大模型落地的個(gè)性化需求,可應(yīng)用于各類邊緣場(chǎng)景,并且工具鏈與軟件棧統(tǒng)一,算法的部署落地更便捷。

他預(yù)告說(shuō),云天勵(lì)飛后續(xù)將發(fā)布基于國(guó)產(chǎn)工藝的大模型邊緣推理一體機(jī),提供更有性價(jià)比的邊緣算力。

云天勵(lì)飛李愛(ài)軍:詳解“算力積木”架構(gòu),探路國(guó)產(chǎn)工藝邊緣AI芯片丨GACS 2024▲云天勵(lì)飛副總裁、芯片業(yè)務(wù)線總經(jīng)理李愛(ài)軍

以下是李愛(ài)軍演講內(nèi)容的完整整理:

一、大模型邊緣落地離不開(kāi)芯片,打造三大產(chǎn)品技術(shù)平臺(tái)

云天勵(lì)飛創(chuàng)業(yè)10年一直堅(jiān)持在邊緣AI這個(gè)場(chǎng)景。今年,大家非常清楚處于大模型應(yīng)用落地元年,我們看到的現(xiàn)狀是大模型應(yīng)用落地。海量的場(chǎng)景一定是在邊緣,而邊緣一定離不開(kāi)芯片,離不開(kāi)芯片其實(shí)有一個(gè)繞不開(kāi)的話題就是國(guó)產(chǎn)工藝。如何在當(dāng)前國(guó)產(chǎn)工藝的條件下做出能夠滿足大模型邊緣落地的AI芯片?這是我們不可回避的話題。今天我就給大家?guī)?lái)云天勵(lì)飛基于這一命題下的一些實(shí)踐和探索。我會(huì)從以下四個(gè)方面闡述。

云天勵(lì)飛自創(chuàng)業(yè)以來(lái)深耕邊緣AI,圍繞著邊緣AI,打造了三個(gè)產(chǎn)品技術(shù)的平臺(tái)。

第一個(gè)產(chǎn)品技術(shù)平臺(tái)是應(yīng)用落地驅(qū)動(dòng)的算法平臺(tái)。通過(guò)這個(gè)平臺(tái)我們實(shí)現(xiàn)了覆蓋14個(gè)領(lǐng)域、超過(guò)102個(gè)種類,300多個(gè)適合邊緣AI行業(yè)落地的算法,這樣的平臺(tái)還支持端云協(xié)同,支持算法在細(xì)分場(chǎng)景下的快速訓(xùn)練微調(diào)和快速部署,我們?cè)谶@個(gè)平臺(tái)上也打造了云天自己的天書”多模態(tài)大模型。這個(gè)大模型在今年3月28日產(chǎn)品發(fā)布會(huì)上已經(jīng)正式對(duì)外發(fā)布了。

第二個(gè)平臺(tái)是算法驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)處理器平臺(tái)。在這個(gè)平臺(tái)上實(shí)現(xiàn)高效推理指令級(jí)設(shè)計(jì),同時(shí)完成了四代神經(jīng)網(wǎng)絡(luò)處理器的迭代。也是因?yàn)檫@么高頻的迭代,所以我們可以高效地支持包括卷積神經(jīng)網(wǎng)絡(luò),包括DV神經(jīng)網(wǎng)絡(luò),以及新一代的Transformer計(jì)算方式。在這個(gè)基礎(chǔ)上,我們可以高效支持包括視覺(jué)大模型、多模態(tài)大模型和大語(yǔ)言模型這類在邊緣高效推理。

第三個(gè)平臺(tái)是面向邊緣計(jì)算場(chǎng)景芯片平臺(tái)。基于這個(gè)平臺(tái),我們實(shí)現(xiàn)三代商用邊緣AI芯片的迭代,同時(shí)算力覆蓋從2T到256T的規(guī)模。我們?cè)谶@樣一個(gè)平臺(tái)上,也完成了基于國(guó)產(chǎn)工藝的D2DChiplet先進(jìn)封裝技術(shù),我們可能是國(guó)內(nèi)第一個(gè)能達(dá)成商用量產(chǎn)階段的芯片和平臺(tái)。同時(shí)在這個(gè)基礎(chǔ)上,我們還實(shí)現(xiàn)了C2C Mesh高效互聯(lián)技術(shù)開(kāi)發(fā)。

基于上面的三大平臺(tái),我們從邊緣AI底層的算法,以及AI處理器和芯片技術(shù)的不斷迭代和創(chuàng)新,支撐了過(guò)去10年來(lái)云天勵(lì)飛推出一系列面向邊緣AI的產(chǎn)品?;谶@些邊緣AI產(chǎn)品,我們也一步步去探索面向邊緣AI行業(yè)應(yīng)用的各種場(chǎng)景。通過(guò)這些場(chǎng)景的探索,我們反過(guò)來(lái)又可以反哺算法和處理器、芯片的迭代,下一代包括算法,以及處理器和芯片下一代的迭代開(kāi)發(fā)。

二、大模型向物理世界演進(jìn),垂類大模型解應(yīng)用場(chǎng)景難題

大模型在邊緣落地具有哪些挑戰(zhàn)呢?

首先回到過(guò)往AI1.0時(shí)代,在AI1.0的時(shí)代,邊緣場(chǎng)景落地有兩大痛點(diǎn),第一個(gè)是場(chǎng)景眾多。場(chǎng)景眾多帶來(lái)最大的問(wèn)題是為了滿足場(chǎng)景的需求,需要各種各樣的長(zhǎng)尾算法,而長(zhǎng)尾算法生產(chǎn)效率出現(xiàn)了投入產(chǎn)出不成正比的情況。李愛(ài)軍提到,過(guò)去10年以來(lái),有很多算法創(chuàng)新公司,基本很難實(shí)現(xiàn)盈利,包括我們?cè)趦?nèi)。

另外一個(gè)痛點(diǎn),用于邊緣AI場(chǎng)景的芯片和算力五花八門,帶來(lái)的問(wèn)題是什么?邊緣產(chǎn)品極度碎片化,我們很難有哪一個(gè)場(chǎng)景下的哪一個(gè)芯片年用量突破10萬(wàn)片,甚至是5萬(wàn)片。在這樣的情況下,是很難有做芯片的規(guī)模效應(yīng),或者是邊緣場(chǎng)景落地的規(guī)模效應(yīng)。

大模型出現(xiàn)以后,我們看到了在邊緣AI場(chǎng)景大規(guī)模落地,我們覺(jué)得有了這個(gè)可能性。在過(guò)去一年半內(nèi),我們看到整個(gè)大模型算法在快速向物理世界演進(jìn)。從2022年11月份ChatGPT發(fā)布標(biāo)志著語(yǔ)言大模型突破;到2023年3月份,Stable Diffusion發(fā)布,標(biāo)志著圖像大模型的突破;再到2024年2月份,Sora大模型出現(xiàn),進(jìn)一步開(kāi)始理解物理世界;一直到今年5月份,空間計(jì)算率先提出,同時(shí)基于空間智能的大模型也開(kāi)始出現(xiàn),大模型在進(jìn)一步理解三維的物理世界。

另外一方面,去年大家在拼基礎(chǔ)大模型,到現(xiàn)在大家開(kāi)始往行業(yè)走,開(kāi)始真正把大模型往應(yīng)用落地方向推。出現(xiàn)了各種各樣的垂類大模型,開(kāi)始真正去解決應(yīng)用場(chǎng)景的問(wèn)題。而大模型的落地正在快速?gòu)脑贫送吘壎税l(fā)展,現(xiàn)在大家提得最多的就是大模型邊緣節(jié)點(diǎn)怎么去構(gòu)筑。

三、大模型落地邊緣AI芯片迎挑戰(zhàn),提出“算力積木”新架構(gòu)解題

大模型落地對(duì)我們的邊緣AI芯片帶來(lái)了新的挑戰(zhàn)。邊緣應(yīng)用場(chǎng)景本身有剛性需求,這個(gè)需求里面有系統(tǒng)自動(dòng)化的要求,有人機(jī)交互的要求,包括更方便、更便利控制和維護(hù)的要求,以及隱私保護(hù)的要求。大模型又帶來(lái)了新的計(jì)算范式,以及大參數(shù)量、大吞吐、大算力要求。這兩者結(jié)合以后,對(duì)我們面向大模型邊緣AI的落地提出了全新的芯片要求。包括對(duì)于新的計(jì)算范式,要具有高的內(nèi)存帶寬,以及高的內(nèi)存容量。同時(shí),算力要具有很強(qiáng)的擴(kuò)展性。為什么?因?yàn)槲覀兛吹皆谶吘壌竽P吐涞兀瑓?shù)有1.8B、1.4B、2.4B,還有3B、4B、7B、8B一直到13B等一系列。你如何能夠提供出一個(gè)彈性的架構(gòu),可以使得各種各樣的大模型在落地的時(shí)候能保證大模型高推理實(shí)時(shí)性要求,同時(shí)還要保證高性價(jià)比。這其實(shí)是對(duì)邊緣AI芯片提出很高的挑戰(zhàn),同時(shí)還要具備高能效、高實(shí)時(shí)性、高性價(jià)比等一系列的特性。

云天勵(lì)飛基于國(guó)產(chǎn)工藝提出了“算力積木”這樣的架構(gòu)創(chuàng)新來(lái)應(yīng)對(duì)這樣的挑戰(zhàn)。我們?cè)倩仡櫼幌聡?guó)產(chǎn)工藝。我們看到的是國(guó)產(chǎn)工藝在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)可能比國(guó)際工藝都要落后兩到三代。我們?nèi)绾卧谙鄬?duì)落后的國(guó)產(chǎn)工藝上又實(shí)現(xiàn)滿足大模型落地需要的高性能、高性價(jià)比的邊緣AI芯片的突破呢?我們覺(jué)得只有在架構(gòu)上進(jìn)行創(chuàng)新才是唯一的出路。

云天勵(lì)飛基于國(guó)產(chǎn)工藝提出的“算力積木”架構(gòu),是一個(gè)基于國(guó)產(chǎn)工藝的D2D Chiplet和C2C Mesh的大模型推理架構(gòu)。我們首先實(shí)現(xiàn)了一個(gè)標(biāo)準(zhǔn)化的大模型的計(jì)算單元,這個(gè)計(jì)算單元可以實(shí)現(xiàn)1.8B大模型的實(shí)時(shí)高效推理;在這個(gè)基礎(chǔ)上,通過(guò)D2D Chiplet藝術(shù),可以實(shí)現(xiàn)7B大模型的高效推理;在此基礎(chǔ)上,利用C2C Mesh技術(shù),實(shí)現(xiàn)了14B的,140億參數(shù)高效推理;進(jìn)一步通過(guò)Mesh Torus架構(gòu)可以實(shí)現(xiàn)高達(dá)1000億以上模型在邊緣端的推理。這樣的架構(gòu)可以滿足邊緣算力在保證實(shí)時(shí)性的情況下,可以實(shí)現(xiàn)大模型對(duì)于算力的擴(kuò)展性,以及靈活性的要求。

四、堅(jiān)持走國(guó)產(chǎn)工藝路線,將推大模型邊緣架構(gòu)推理機(jī)

為了實(shí)現(xiàn)這樣的方面,我們做了很多技術(shù)上的創(chuàng)新。我們?cè)跇?biāo)準(zhǔn)化算力單元上面進(jìn)行了以下三個(gè)創(chuàng)新,實(shí)現(xiàn)大模型高效推理。

首先,我們?cè)O(shè)計(jì)了近存計(jì)算,通過(guò)近存計(jì)算可以實(shí)現(xiàn)Transformer這種計(jì)算的超低延時(shí)。通過(guò)可編程路由引擎,我們可以實(shí)現(xiàn)高效分布式的并行計(jì)算,同時(shí)通過(guò)多路由協(xié)同機(jī)制??梢杂行У靥岣叽竽P偷膮?shù)數(shù)據(jù)響應(yīng)速度,從而滿足高效推理的需要。

我們?cè)贛esh Torus上面,通過(guò)自適應(yīng)路由機(jī)制,能夠?qū)崿F(xiàn)減少數(shù)據(jù)搬運(yùn)次數(shù);通過(guò)減少數(shù)據(jù)搬運(yùn)次數(shù),可以有效地降低帶寬的需求;通過(guò)Torus結(jié)構(gòu),可以有效地降低多跳帶來(lái)時(shí)延的影響,從而可以提升推理速度。我們現(xiàn)在可以實(shí)現(xiàn)8×16個(gè)標(biāo)準(zhǔn)“算力積木”單元的Mesh Torus架構(gòu)互聯(lián),可以提供2048Tops統(tǒng)一管理智能算力。同時(shí),我們可以實(shí)現(xiàn)統(tǒng)一的內(nèi)存管理尋址,容量可以達(dá)到512GB。大家知道現(xiàn)在大模型最大的就是參數(shù)量。如果沒(méi)有大內(nèi)存,你想做到很好的推理是難的。我們還可以實(shí)現(xiàn)可統(tǒng)一調(diào)度的內(nèi)存帶寬,高達(dá)3840GB/s的帶寬。

基于這樣的一些架構(gòu)上的創(chuàng)新,我們也推出了國(guó)內(nèi)首個(gè)基于國(guó)產(chǎn)工藝Chiplet邊緣化的AI芯片。這個(gè)芯片是全國(guó)產(chǎn)化的設(shè)計(jì),從設(shè)計(jì)到工藝到封裝等。同時(shí)也是系列化芯片,算力從8T到256T范圍,可以滿足邊緣場(chǎng)景各類大模型落地算力的需要。這個(gè)芯片還是主控級(jí)SoC芯片,一顆芯片就可以滿足這個(gè)場(chǎng)景單芯片設(shè)備的需要,不需要再加其他的芯片,集成了第四代的處理器。雖然芯片是系列化的,但是我們工具鏈?zhǔn)墙y(tǒng)一的,而且是統(tǒng)一的軟件棧,這樣方便軟件的開(kāi)發(fā)和應(yīng)用。

目前Edge10國(guó)產(chǎn)化芯片平臺(tái)已經(jīng)支持了主流大模型,包括Transformer模型、BEV模型、CV大模型和各類主流的大語(yǔ)言模型,還有多模態(tài)大模型。我們?cè)趩蝹€(gè)“算力積木”單元,就是單芯片上,可以實(shí)現(xiàn)1.8B模型14.5tokens/s的性能。在Chiplet芯片上,可以實(shí)現(xiàn)1.8B模型,達(dá)到55tokens/s的推理性能。如果是7B模型,可以實(shí)現(xiàn)30tokens/s的性能。如果是用Edge10做的Mesh Torus的一體機(jī),對(duì)70B模型可以有高達(dá)60tokens/s的推理。

Edge10芯片現(xiàn)在已經(jīng)在邊緣AI各類場(chǎng)景下實(shí)現(xiàn)商業(yè)化落地。

我們展望邊緣AI大模型芯片的發(fā)展,無(wú)論是Gartner的預(yù)測(cè),還是ABI的研究,包括IDC的預(yù)計(jì),大家的判斷都是一致的。未來(lái)大部分的場(chǎng)景數(shù)據(jù)都將在數(shù)據(jù)中心之外產(chǎn)生,數(shù)據(jù)中心之外就是在邊緣端產(chǎn)生。我們認(rèn)為在大模型和海量數(shù)據(jù)的驅(qū)動(dòng)下,邊緣AI芯片未來(lái)一定會(huì)在可見(jiàn)的未來(lái)迎來(lái)大爆發(fā)。邊緣AI芯片大爆發(fā)最核心的就是大模型邊緣推理,它需要具備的,包括大算力、高能效、低延時(shí)、可擴(kuò)展。特別是國(guó)產(chǎn)化,在當(dāng)前的國(guó)際形勢(shì)下特別重要。

未來(lái),云天勵(lì)飛將會(huì)推出基于Mesh Torus架構(gòu)的大模型邊緣推理一體機(jī)。以高峰值算力與突出的能效比支持大模型的單機(jī)部署,包括7B、70B、MoE等主流大模型的邊緣側(cè)推理部署。

我們堅(jiān)持走國(guó)產(chǎn)工藝這個(gè)路線。通過(guò)架構(gòu)創(chuàng)新的方式,能夠在相對(duì)落后的國(guó)產(chǎn)工藝上進(jìn)行性能突破,我們相比現(xiàn)在主流的用于大模型推理的一體機(jī),我們可以做到更高的性能、更高的性價(jià)比。即使用國(guó)產(chǎn)工藝,我相信我們也可以給大家?guī)?lái)更高性價(jià)比的產(chǎn)品。