智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

進(jìn)入2024年,隨著大模型加速產(chǎn)業(yè)化落地,以及MoE(混合專家模型)等大模型技術(shù)發(fā)展,Llama 2等百億級參數(shù)的模型大有可為,有望在實(shí)戰(zhàn)場景中以低成本趕超GPT-4等萬億級參數(shù)超大規(guī)模的模型。

潞晨科技創(chuàng)始人尤洋告訴智東西:“我們完全可以用一臺一體機(jī)完成模型的微調(diào)和部署。”開源大模型讓更多企業(yè)無需從頭開始訓(xùn)練,可以更注重低成本的微調(diào)和部署,因此大模型開發(fā)的過程也可以變得更加輕量化。

潞晨科技創(chuàng)立于2021年7月,創(chuàng)始人尤洋是加州伯克利大學(xué)博士、新加坡國立大學(xué)計(jì)算機(jī)系的校長青年教授,曾創(chuàng)造了ImageNet、BERT、AlphaFold、ViT訓(xùn)練速度的世界紀(jì)錄,技術(shù)至今被微軟、谷歌、英偉達(dá)等科技巨頭廣泛采用。

2023年11月,潞晨科技推出了大模型訓(xùn)推一體機(jī),單機(jī)支持千億參數(shù)大模型,能夠幫助企業(yè)像做PPT一樣簡單快速地完成大模型開發(fā),模型訓(xùn)練/推理加速2-10倍,且效率和成本數(shù)倍優(yōu)化。這意味著大模型開發(fā)與應(yīng)用的門檻被大大降低。

尤洋透露,推出僅僅一個(gè)多月之后,這款名為Colossal-AI大模型一體機(jī)的產(chǎn)品已獲得了金融、醫(yī)學(xué)、能源、零售等領(lǐng)域的標(biāo)桿客戶,為公司獲取數(shù)千萬元營收。而加持一體機(jī)的大模型開發(fā)系統(tǒng)Colossal-AI,目前已獲得GitHub星數(shù)超3.5萬顆,細(xì)分賽道排名世界第一。

2024年有望成為大模型的落地元年。行業(yè)將面臨什么樣的新趨勢?開源大模型如何跑贏GPT-4等超大模型?“單機(jī)煉?!痹趯?shí)戰(zhàn)中表現(xiàn)如何?通過對話尤洋,智東西對此進(jìn)行了深入探討。

「百模大戰(zhàn)」2024走向何方?對話潞晨科技尤洋:像做PPT一樣開發(fā)大模型

▲潞晨科技創(chuàng)始人、新加坡國立大學(xué)計(jì)算機(jī)系的校長青年教授尤洋

一、大模型進(jìn)入落地元年,“單機(jī)煉?!背尚纶厔?/strong>

在2023年,大模型規(guī)模動輒上萬億參數(shù),用一臺服務(wù)器去訓(xùn)練,幾乎是不敢想的事。

進(jìn)入2024年,情況正在改變:

市場不再一味地追求模型的超大規(guī)模參數(shù)。「百模大戰(zhàn)」的焦點(diǎn)由2023年的大模型轉(zhuǎn)向大模型產(chǎn)業(yè)化落地,大模型需要驗(yàn)證應(yīng)用效果。在這種背景下,一方面,市面上的萬億級參數(shù)的通用大模型繼續(xù)拼殺,最終可能只剩下幾家;另一方面,百億級參數(shù)大模型依靠傳統(tǒng)行業(yè)數(shù)據(jù),結(jié)合場景,有望開拓出一片新市場。

同時(shí),很難說Llama 2等百億級參數(shù)規(guī)模開源模型不夠用了。

尤洋告訴智東西,近期歐洲Mistral AI開源的MoE模型,加上Llama 2這類開源大模型,其實(shí)已經(jīng)能滿足大部分用戶業(yè)務(wù)需求。

MoE是一種基于稀疏MoE層的模型架構(gòu),處理輸入數(shù)據(jù)時(shí)只有少數(shù)專家模型被激活或者使用,在訓(xùn)練和推理上表現(xiàn)出顯著優(yōu)勢,達(dá)到節(jié)省計(jì)算資源的效果,Mistral AI、MiniMax等知名大模型創(chuàng)企最近都透露了MoE進(jìn)展;此前7月,外媒SemiAnalysis曾曝GPT-4采用的就是MoE方案,16個(gè)千億級參數(shù)的專家模型結(jié)合而來?,F(xiàn)在,MoE成為創(chuàng)企突圍GPT-4的一大重要捷徑。

與此同時(shí),全球基于Llama 2系列等模型開發(fā)的金融、辦公、醫(yī)療、教育等各行業(yè)的大模型已經(jīng)開始嶄露頭角,在一些領(lǐng)域落地效果并不比GPT-4差。

這些跡象,都意味著百到千億級別的大模型將有較大市場發(fā)展空間。

尤洋告訴智東西,我們完全可以用一臺一體機(jī)去微調(diào)和部署,讓訓(xùn)練大模型像做PPT一樣簡單,并實(shí)現(xiàn)成本和效果最優(yōu)化。

很多時(shí)候,用戶并不需要從頭做大模型預(yù)訓(xùn)練,而只需要對Llama 2等開源大模型結(jié)合業(yè)務(wù)數(shù)據(jù)進(jìn)行微調(diào),微調(diào)數(shù)據(jù)可能只有預(yù)訓(xùn)練大模型的1%~1‰,因此訓(xùn)練的時(shí)間和成本也會降低數(shù)個(gè)數(shù)量級。當(dāng)模型訓(xùn)練完后投入應(yīng)用,需要高效的推理部署優(yōu)化。隨著業(yè)務(wù)的發(fā)展,模型又會有多次小規(guī)模迭代的需求。

這些工作,在2024年都將可以被一臺服務(wù)器勝任。

可以預(yù)測,隨著大模進(jìn)入產(chǎn)業(yè)化落地元年,“單機(jī)煉?!睂⒊蔀橐粋€(gè)新的趨勢。

二、直擊行業(yè)痛點(diǎn),讓大模型開發(fā)像做PPT一樣簡單

并不是所有的服務(wù)器都適合“單機(jī)煉?!?。

部署大模型算力,很多投入企業(yè)面臨這樣的痛點(diǎn):拿到服務(wù)器后還有很多工作要做,可能需要長達(dá)30天甚至更久才能把環(huán)境、框架、模型搭建起來,訓(xùn)練需要多次試錯迭代,最終還需要優(yōu)化推理部署進(jìn)業(yè)務(wù)。模型開發(fā)的技術(shù)門檻和團(tuán)隊(duì)成本不低不說,開發(fā)模型的算力和時(shí)間成本負(fù)擔(dān)也很嚴(yán)峻,產(chǎn)品迭代還可能趕不上競品。

潞晨科技Colossal-AI大模型一體機(jī)直擊這一行業(yè)痛點(diǎn)。

Colossal-AI是潞晨科技自研的一個(gè)集成了高性能計(jì)算和AI先進(jìn)技術(shù)的系統(tǒng),目前已成為全球基礎(chǔ)軟件市場增長最快的軟件之一,基礎(chǔ)開源部分已在GitHub上獲超3.5萬顆星。Colossal-AI大模型一體機(jī)則是將這一系統(tǒng)及解決方案,與算力硬件相結(jié)合的最新產(chǎn)品。

“它真正把訓(xùn)練部署AI大模型變得像做PPT一樣簡單?!?/strong>尤洋對智東西說,“比如做PPT,用戶不需要關(guān)注PowerPoint軟件的版本,以后甚至無需下載PowerPoint軟件,通過文本對話就能生成幻燈片。未來只有達(dá)到這種狀態(tài),整個(gè)AI生產(chǎn)力才會解放?!?/p>

尤洋告訴智東西,Colossal-AI大模型一體機(jī)剛剛推出一個(gè)多月時(shí)間已落地多家客戶,取得階段性成果。客戶大致分為兩類:一是有數(shù)據(jù)隱私要求的,比如金融行業(yè)客戶;二是眾多傳統(tǒng)行業(yè),如車廠、醫(yī)藥、石油等行業(yè)客戶。目前Colossal-AI大模型已為公司取得了數(shù)千萬元的營收,并保持高速增長。

“95%有AI需求的用戶都可以用Colossal-AI大模型一體機(jī)滿足。即便是愿景規(guī)模比較大的用戶,將其作為早期選擇也是非常合適的。”尤洋告訴智東西。

同時(shí),Colossal-AI大模型一體機(jī)易擴(kuò)展。面對其他5%有大規(guī)模模型訓(xùn)練需求的用戶,潞晨科技推出了Colossal-AI云平臺及私有化部署服務(wù),可以在云端或私有算力集群,提供從數(shù)臺服務(wù)器到千卡集群的算力支持和全面高性能解決方案。

「百模大戰(zhàn)」2024走向何方?對話潞晨科技尤洋:像做PPT一樣開發(fā)大模型

▲潞晨科技Colossal-AI大模型一體機(jī)簡介

用Colossal-AI大模型一體機(jī)“煉模”,將更加省錢、省時(shí)、省事:

1、省錢:一臺機(jī)器解決模型開發(fā)全流程問題和實(shí)現(xiàn)模型應(yīng)用部署。一體機(jī)支持大模型訓(xùn)練和推理兩用,提供Llama、Falcon、MoE等豐富的大模型案例,支持用戶用更少的算力成本開發(fā)大模型。

2、省時(shí):把技術(shù)落地成標(biāo)準(zhǔn)化解決方案,結(jié)合其多年在系統(tǒng)層面的加速技術(shù),支持模型訓(xùn)練/推理加速2-10倍,提升客戶產(chǎn)品的迭代效率。

3、省事:提供充足的易用性,讓開發(fā)大模型像做PPT一樣簡單,用戶只需要改幾行代碼,最多花兩三個(gè)小時(shí)就把大模型搭建起來。潞晨科技的理念是為用戶屏蔽底層技術(shù)難題,讓用戶只需要關(guān)注速度、成本、模型效果等核心事宜。

可以看到,“單機(jī)煉?!辈粌H意味著機(jī)器少了,更意味著大模型開發(fā)及應(yīng)用的門檻顯著降低。

三、硬件不夠用,大模型行業(yè)向軟件要效率

雖然大模型開發(fā)和應(yīng)用的門檻正在降低,但面臨的算力挑戰(zhàn)依然嚴(yán)峻,提高算力效率仍是2024年大模型行業(yè)的重中之重。

“高端芯片不足,更能體現(xiàn)出軟件的價(jià)值?!庇妊蟾嬖V智東西。

比如未來H100等高性能GPU在國內(nèi)可能難以獲得,可獲得的GPU硬件效率可能縮水?dāng)?shù)倍。在這一情況下,我們可以把多個(gè)性能相對較低的GPU聯(lián)合起來,去模擬出一個(gè)高性能GPU的效果,這就是Colossal-AI最擅長的部分。同時(shí),對于替代硬件,Colossal-AI也早已與多家廠商達(dá)成合作,實(shí)現(xiàn)低成本兼容適配和性能優(yōu)化。

向軟件要算力效率,尤洋及其團(tuán)隊(duì)已深耕多年。

2018年,尤洋提出的LARS優(yōu)化器將AlexNet模型的訓(xùn)練時(shí)間縮短到24分鐘,成果獲國際并行處理大會(ICPP)最佳論文獎;2019年,他又提出了LAMB優(yōu)化器,將BERT的預(yù)訓(xùn)練時(shí)間從三天三夜縮短至76分鐘,比Adam優(yōu)化器快72倍,創(chuàng)造機(jī)器學(xué)習(xí)領(lǐng)域的新紀(jì)錄。

基于這樣的積累,潞晨科技推出的Colossal-AI在大模型浪潮中脫穎而出,成為享譽(yù)全球的AI大模型基礎(chǔ)設(shè)施。

用戶在進(jìn)行分布式大模型訓(xùn)練和部署時(shí)面臨極高成本遷移、內(nèi)存效率優(yōu)化、擴(kuò)展性等多個(gè)方面難題,Colossal-AI在大模型一體機(jī)的構(gòu)建時(shí)就已為用戶解決。

具體來說,Colossal-AI在異構(gòu)內(nèi)存管理系統(tǒng)、N維并行系統(tǒng)和低延時(shí)推理系統(tǒng)三部分打造了護(hù)城河:

1、異構(gòu)內(nèi)存管理系統(tǒng):基于Colossal-AI的異構(gòu)調(diào)度系統(tǒng),用戶只需要寫一行代碼就能對GPU內(nèi)存、CPU內(nèi)存、硬盤實(shí)現(xiàn)高效動態(tài)管理,可將硬件的模型容量提升百倍。

2、高效N維并行系統(tǒng):基于Colossal-Al的N維并行技術(shù),潞晨科技獨(dú)創(chuàng)序列并行,打造了更高維度的張量并行在內(nèi)的多種并行策略,易用性極佳,僅需極少量修改即可快速部署各種復(fù)雜并行策略,最大化發(fā)揮硬件性能。

3、低延時(shí)推理系統(tǒng):潞晨科技采用了包括內(nèi)存管理、張量并行技術(shù),以及剪枝蒸餾等一系列優(yōu)化技術(shù),從整體的部署方式和模型本身的優(yōu)化兩方面下手,最大化加速模型推理。

羅馬非一日建成。正是由于在大模型系統(tǒng)優(yōu)化有多年積累,潞晨科技才能夠在這波大模型浪潮中拔得頭籌。近期,潞晨科技剛剛完成了近億元的A+輪融資,背后則是對其技術(shù)、產(chǎn)品、生態(tài)、客戶及團(tuán)隊(duì)等多方面能力的認(rèn)可。

「百模大戰(zhàn)」2024走向何方?對話潞晨科技尤洋:像做PPT一樣開發(fā)大模型▲潞晨科技展臺

結(jié)語:降低大模型開發(fā)門檻,解放AI生產(chǎn)力

進(jìn)入2024年,「百模大戰(zhàn)」中的更多大模型將進(jìn)入產(chǎn)業(yè)實(shí)戰(zhàn),一方面,萬億級的頭部大模型依然在許多場景中占據(jù)統(tǒng)治地位,需要大規(guī)模算力集群;另一方面,很難說百億到千億級別的大模型不夠用,結(jié)合行業(yè)數(shù)據(jù),可能發(fā)揮出比大規(guī)模模型更好的效果,這也使得“單機(jī)煉?!背蔀榭赡堋?/p>

工欲善其事,必先利其器。潞晨科技Colossal-AI大模型一體機(jī)的推出,為有大模型需求的廠商提供了大模型訓(xùn)練的加速器、算力的加成包和效果的放大器。其背后的理念更值得提倡,那就是讓大模型開發(fā)變得像做PPT一樣簡單,這也是構(gòu)建AI基礎(chǔ)設(shè)施,所能直接展現(xiàn)的解放AI生產(chǎn)力的意義所在。