芯東西(公眾號:aichip001)
作者 | 李水青
編輯 | 心緣

當下,人工智能產(chǎn)業(yè)發(fā)展正在進入“大模型”階段,1700億參數(shù)的超大規(guī)模深度學習模型GPT-3,指引整個人工智能產(chǎn)業(yè)尋找一條新的可行之路,縮短我們與通用智能的距離。但與此同時,海量的數(shù)據(jù)和超大算力需求,讓大模型的產(chǎn)業(yè)化落地面臨巨大的算力挑戰(zhàn)。

在摩爾定律逼近物理極限的情況下,中國AI芯片創(chuàng)業(yè)大軍并非無計可施,而是涌現(xiàn)出一大批革新者,用底層技術創(chuàng)新挑戰(zhàn)既有的行業(yè)壟斷龍頭。

創(chuàng)立于2018年的云端AI芯片公司墨芯人工智能就是其中一個代表。

誕生于硅谷,總部位于深圳,這家公司推出多款基于自研稀疏計算芯片的AI計算卡,運行ResNet-50算力超90000fps。相較于當前國際大廠主流推理卡單卡只能支持百億參數(shù)級別的模型,據(jù)稱,其可以支持千億參數(shù)級別的模型,這意味著讓擁有1700億參數(shù)的GPT-3大模型跑在單張計算卡上。

深扒團隊背景,創(chuàng)始人兼CEO王維曾在美國高通和英特爾擔任架構(gòu)師,是英特爾5-10代CPU處理器的核心成員,參與開發(fā)量產(chǎn)超50億片芯片,同時他也有過硅谷芯片公司創(chuàng)業(yè)經(jīng)歷;首席科學家嚴恩勖是卡內(nèi)基梅隆大學擁有40多篇AI頂會成果的機器學習博士。

起點高,沖得快,是很多業(yè)內(nèi)人對墨芯人工智能的印象。

那么這家公司到底有什么核心競爭力?背后又有什么樣的創(chuàng)業(yè)故事?縱觀當下的AI芯片產(chǎn)業(yè)化落地潮和價值檢驗窗口,墨芯能否持續(xù)將技術成果轉(zhuǎn)化為產(chǎn)業(yè)價值?

近日,墨芯創(chuàng)始人兼CEO王維與智東西進行了線上對話,回顧了四年創(chuàng)業(yè)關鍵節(jié)點,并對這些問題進行深入探討。

今年8月26日下午,王維將出席在深圳舉辦的GTIC 2022全球AI芯片峰會·云端AI芯片專題論壇,并發(fā)表主題為《面向AI未來的稀疏化計算》的演講。

單卡跑通AI大模型!硅谷20年芯片老兵創(chuàng)業(yè),對話墨芯CEO王維

一、單卡支持大模型,運行ResNet-50算力超90000fps

2022年的元旦夜,王維和幾個核心測試人員在實驗室,剛剛拿到首顆芯片Antoum的回片。4年努力和艱辛到了驗證時刻,王維和同事們立刻將所有軟件跑上去,上電的那一剎那,整個芯片驅(qū)動程序就剎那間跑通了。

他們當晚連夜把ResNet-50跑通,發(fā)現(xiàn)性能都順利達到了當初設計的目標?!斑@款全球首款高達32倍稀疏率的AI計算芯片,在算力、功耗、能效比——云端芯片的三大核心技術點上,Antoum都做到了突破性創(chuàng)新?!蓖蹙S對智東西說。

這是王維創(chuàng)業(yè)四年里最興奮和有成就感的時刻。

所謂稀疏化計算,是一種以人腦得到靈感的模型壓縮方法。簡單來說,就是通過底層創(chuàng)新、軟硬協(xié)同設計,讓神經(jīng)網(wǎng)絡模型消減冗余,以提高計算效率。

僅僅在流片成功4個月后,今年4月,墨芯就推出首款基于Antoum芯片的S4計算卡。在第三方浪潮服務器上,S4運行多個主流AI模型,實測性能是國際大廠主流AI推理卡T4的6倍。

單卡跑通AI大模型!硅谷20年芯片老兵創(chuàng)業(yè),對話墨芯CEO王維

▲基于Antoum芯片的S4計算卡

近年來新興的NLP模型——T5,曾被稱為“全新NLP SOTA預訓練模型”,以其高參數(shù)量,讓許多計算卡“望而卻步”。S4在單機單卡環(huán)境下就能運行T5-8B模型,算力穩(wěn)定在190sps左右。S4運行T5時內(nèi)存占比只有約7.8%,讓人對它能夠支持的模型參數(shù)具有很大想象空間。

單卡跑通AI大模型!硅谷20年芯片老兵創(chuàng)業(yè),對話墨芯CEO王維

相較于當前國際大廠主流推理卡單卡只能支持百億參數(shù)級別的模型,S4計算卡可以支持千億參數(shù)級別的模型。而隨著S4性能得到驗證,更大尺寸的S30也迅速推出,適用于能效比、功耗更高的場景。

單卡跑通AI大模型!硅谷20年芯片老兵創(chuàng)業(yè),對話墨芯CEO王維

▲基于Antoum芯片的S30計算卡

王維向我們舉了一個例子,GPT-3模型是擁有1700多億參數(shù)的大模型代表,如果放在GPU上去做推理的話,需要內(nèi)存量是要幾百G,也就是需要很多張80G的GPU,且會有明顯時延;但通過稀疏化路徑,用一張墨芯S30計算卡,就可以跑通GPT-3,并且計算速度還變快了很多。

墨芯正通過打造這一套芯片和軟硬件產(chǎn)品,去推動深度學習更高算力、更大規(guī)模、更低計算成本的方向去發(fā)展。

就在近日,第三方實測數(shù)據(jù)顯示,墨芯S4計算卡運行ResNet-50,算力達33197fps,S30計算卡運行ResNet-50算力超90000fps。

墨芯已成為非盈利性機器學習開放組織MLCommons會員,后者由谷歌、英偉達、英特爾、Facebook、浪潮等全球AI領軍企業(yè)創(chuàng)建,是業(yè)內(nèi)權(quán)威基準測試MLPerf的監(jiān)管者,9月將公布其首批稀疏化計算卡S4和S30的性能測試結(jié)果,有望代表國產(chǎn)AI芯片達成一個新里程碑。

二、主攻稀疏化計算,在云端AI芯片賽道獨辟蹊徑

縱觀全球云端AI芯片創(chuàng)業(yè)大軍,如同過獨木橋般競爭激烈。

一個創(chuàng)業(yè)公司想要從行業(yè)壟斷龍頭口中搶占市場蛋糕,想在各顯神通的AI芯片創(chuàng)企中殺出一條血路,就一定要有來自底層技術的顛覆性創(chuàng)新,而不能是微量的差異化和創(chuàng)新點。王維認為,這個技術差異化或者性能提升至少需要10倍。

稀疏化計算技術在王維看來是一條能實現(xiàn)10倍顛覆性創(chuàng)新的路徑。

“(稀疏化計算)技術差異化達到了一個數(shù)量級,當時我們就可以在算法層面上做到接近20倍的稀疏率,模型精度不改變,這是一個足夠顛覆性的技術特點。”王維說,“同時,稀疏計算無需再造一個生態(tài),它和現(xiàn)在所有的AI訓練、推理生態(tài)兼容,因此市場化落地可以確定?!?/strong>

事實也正如王維所料,市場幾乎不需要他去重新教育。其接觸了很多行業(yè)的頭部客戶,本身有較強的AI算法和人才,所以都十分認可稀疏化計算在深度學習推理、訓練的潛力和發(fā)展空間。

令客戶好奇的是,墨芯把稀疏化做到什么程度了?產(chǎn)品的完整性如何?是不是到可用甚至易用、通用的程度了啊?這個里面的技術差異性有沒有足夠大,讓我足夠有興趣,去選擇國際大廠之外的第二供應商?這些是更加重要的問題。

而這,實際上也是當下云端AI芯片產(chǎn)業(yè)發(fā)展至今,走向規(guī)模化落地的最大挑戰(zhàn)之一。

在墨芯創(chuàng)業(yè)之時,各路玩家都在求索突破摩爾定律極限的新路。業(yè)內(nèi)已經(jīng)有一些顯性路徑,比如通過存算一體設計,在底層硬件層面做優(yōu)化。而從稀疏化算法,是從上層AI算法切入做芯片優(yōu)化的另一路徑。無論是那條技術路徑,除了要向客戶證明其產(chǎn)品差異化,還要證明其技術完整度及TCO(總擁有成本)。

而在眾多技術路徑中,稀疏化計算在當時可謂人跡罕至。包括英偉達、英特爾等大芯片廠都還未有推出相關產(chǎn)品,而是在這兩年才有相關進展。

這也決定了墨芯在研發(fā)與落地過程中幾乎沒有同類玩家可以參考,挑戰(zhàn)重重。

三、硅谷20年芯片老兵+算法大牛創(chuàng)業(yè),打造算法定義計算平臺

如何在毫無參考的情況下實現(xiàn)底層創(chuàng)新突破?

“很顯然,你需要有頂級的算法科學家,對于稀疏化計算這一套理論有很強的突破性和創(chuàng)新性,因為這個地方是最核心的創(chuàng)新源、創(chuàng)新點。”

王維告訴我們,令他有底氣的是,墨芯從早期團隊設置就兼顧了算法、架構(gòu)、芯片設計的頂尖人才。

2018年冬天,王維從美國硅谷飛往卡內(nèi)基梅隆大學,與正在讀博士的校友嚴恩勖聊了兩天兩晚,當即拍板基于稀疏算法做AI芯片創(chuàng)業(yè)。嚴恩勖是神經(jīng)網(wǎng)絡動態(tài)稀疏算法發(fā)明者,曾在Google和Microsoft Research擔任研究員,在國際頂級人工智能期刊論文發(fā)表40余篇。

彼時,1700億參數(shù)的GPT-3大模型還沒有誕生,但關于通用人工智能發(fā)展的潮水已在業(yè)內(nèi)暗流涌動。大模型意味著巨量數(shù)據(jù)和算力需求。時任英特爾芯片架構(gòu)師的王維看到了其中的創(chuàng)業(yè)機會。

就在與嚴恩勖會面的幾個月前后,王維找來了硅谷20多年的好友。這兩位好友分別是有20年以上SoC芯片設計和團隊管理經(jīng)驗的蘆勇,他曾任SK Hynix芯片設計總監(jiān)和Marvell資深芯片設計經(jīng)理;以及,擁有18年DSP、CPU處理器以及硬件加速器學術及產(chǎn)業(yè)經(jīng)驗的肖志斌,他曾是阿里達摩院的核心架構(gòu)師和研究員。

在半導體圈摸爬滾打20多年,王維、蘆勇和肖志斌深知半導體是一個成熟行業(yè)。

在這一行業(yè),如果要尋求機會的話,一定需要一個爆發(fā)點的應用產(chǎn)生。就如同過去20年,PC、移動互聯(lián)網(wǎng)手機的興起,為半導體行業(yè)帶來的巨大空間一樣?,F(xiàn)在,人工智能正在帶來新的大趨勢、大機會、大市場。

2018年8月,墨芯人工智能(Moffett AI)正式在硅谷創(chuàng)立。

墨芯取自其英文名Moffett的諧音,這是其創(chuàng)業(yè)起源卡內(nèi)基梅隆大學硅谷校區(qū)的地名;同時,墨芯也有“墨子芯片”之意,致敬中國古代偉大的科學家墨子。

經(jīng)過全面系統(tǒng)化分析推演之后,王維和幾位創(chuàng)始人已經(jīng)一步步明確執(zhí)行了其設立的目標——打造一個優(yōu)秀的算法定義計算平臺,支持前沿的稀疏化計算框架。

四、兩年悶聲研發(fā),一次流片成功,首顆芯片即量產(chǎn)

看好國內(nèi)的創(chuàng)業(yè)大環(huán)境和市場,墨芯人工智能于2019年5月在深圳建立總部。

而此時,墨芯也正式完成研發(fā)首顆芯片的前期籌備。盡管團隊都是經(jīng)驗豐富的芯片老兵,但由于稀疏化計算在國內(nèi)外都沒有先例參考,墨芯的芯片真正完成研發(fā)轉(zhuǎn)去流片,已經(jīng)是兩年后2021年5月。在這兩年里,墨芯除了拿下了來自基石、真格基金、深圳天使母基金、凱旋創(chuàng)投、將門創(chuàng)投領投、浪潮和智慧互聯(lián)產(chǎn)業(yè)基金等戰(zhàn)略投資的三輪合計數(shù)億元的融資,大多數(shù)時候沒有更多消息流出。

AI和大數(shù)據(jù)帶來的時代的變量,已經(jīng)改變了半導體設計思路,悶聲做研發(fā)的墨芯是這一進程的親歷者。

墨芯選擇“算法創(chuàng)新,定義芯片架構(gòu)”的策略,這與傳統(tǒng)芯片公司只攻底層的設計思路不同。簡單來說,這一方法是通過理解創(chuàng)新算法的突破,用這些新算法的突破來定義軟件架構(gòu),再往下定義硬件架構(gòu)。

當下,市面上已有同行也在打造算法定義硬件或算法芯片化產(chǎn)品,但與基于特定場景做算法芯片化的做法不同,墨芯更注重應對通用性、易用性的基礎算力需求。聚焦數(shù)據(jù)中心AI算力需求的通用性,其在大數(shù)據(jù)里提取核心特征,為應用場景做決策和判斷。

“我們是一次流片成功,第一顆芯片就是量產(chǎn)芯片。”王維告訴智東西,“這件事情的考驗,完全在于芯片團隊,它是否有足夠的經(jīng)驗和能力,能夠承擔得起一個這么大一塊芯片,一次流片成功。我相信我的團隊很好的、非常出色的完成了這個任務?!?/p>

五、流片半年已有多家客戶,構(gòu)建生態(tài)發(fā)力三大市場

2022年被認為是中國AI芯片產(chǎn)業(yè)化落地元年。四年磨一劍,墨芯也正開啟稀疏化創(chuàng)新技術路徑的產(chǎn)業(yè)化推廣。

今年7月,王維已經(jīng)談下了幾家客戶。流片成功僅半年,在互聯(lián)網(wǎng)市場,墨芯已在一些頭部互聯(lián)網(wǎng)公司進入適配階段;在行業(yè)市場,墨芯也與生命科學領域部企業(yè)項目落地。

在未來一個階段中,墨芯將圍繞互聯(lián)網(wǎng)、泛政府行業(yè)及垂直行業(yè)三大方向進行市場推廣。在定價上,墨芯不會采取低價策略,而是將整個算力服務器的TCO(總擁有成本)達到現(xiàn)有主流產(chǎn)品的1/2,甚至1/3。

在王維看來,稀疏化計算是一個通用的、正前沿的發(fā)展方向,它在技術層面上沒有什么局限性?,F(xiàn)在最大的挑戰(zhàn)是關于稀疏化的計算生態(tài)。只有生態(tài)完備,這些產(chǎn)品能夠更快速的讓各個行業(yè)的用戶快速使用起來、熟悉起來。

因此,墨芯面對的下一步更大的挑戰(zhàn)是如何未來去建立一個生態(tài)同盟的合作關系。

在算法生態(tài)方面,由于墨芯是從算法創(chuàng)新,與當下主流算法框架高度兼容,已通過眾多SDK布局TensorFlow、PyTorch等主流框架接口,讓客戶在使用時好像“仍然是在用原來的平臺一樣”。

在硬件生態(tài)上,墨芯也與市面上主流服務器廠商展開合作,比如而在一個月前,墨芯剛剛與浪潮信息簽訂元腦戰(zhàn)略合作協(xié)議,通過加入計算生態(tài)進行市場推廣。而后,墨芯也將與其他服務器提供商以及運營商開放生態(tài)合作。

結(jié)語:AI芯片產(chǎn)業(yè)化驗證期,考驗創(chuàng)企多兵種作戰(zhàn)力

當下,隨著摩爾定律逼近物理極限,中國AI芯片創(chuàng)業(yè)也進入產(chǎn)業(yè)化驗證期。AI芯片創(chuàng)業(yè)大軍中涌現(xiàn)出不同技術流派的玩家,他們中既有幾十年經(jīng)驗的芯片老兵,又有學術成果豐碩的AI算法后浪。這展現(xiàn)出中國產(chǎn)業(yè)發(fā)展至今的人才蓄水池的汩汩活力,是中國攻克芯片卡脖子難關的動力之源。

墨芯人工智能是這批創(chuàng)業(yè)大軍中的一支多兵種作戰(zhàn)隊伍,硅谷20年芯片老兵與AI算法科學家共同構(gòu)建的團隊基因,讓這支隊伍在技術路線選擇上也獨辟蹊徑。稀疏化計算路徑,作為AI算法領域認可的一大發(fā)展趨勢,率先被這家芯片創(chuàng)企實現(xiàn)產(chǎn)品驗證。下一步,生態(tài)能否快速建立,產(chǎn)品能否快速推廣落地,是其面臨的新課題。