智東西(公眾號(hào):zhidxcom)
作者 | 漠影
編輯 | 三北

隨著“百模大戰(zhàn)”進(jìn)入小考時(shí)刻,已經(jīng)有國產(chǎn)大模型交高分卷了。

9月1日,網(wǎng)信辦深度合成服務(wù)算法備案公告一聲令下,國內(nèi)頭部大模型紛紛面向全社會(huì)開放服務(wù),接受新的考驗(yàn)。

正值此時(shí),有一個(gè)國產(chǎn)開源大模型已經(jīng)橫掃各大中英文測(cè)評(píng)榜單,不僅在基座模型測(cè)試中碾壓Llama 2等開源大模型,還在垂直行業(yè)領(lǐng)域遠(yuǎn)超其他開源模型,展現(xiàn)出“黑馬”之勢(shì)。

據(jù)官方數(shù)據(jù)顯示,在GitHub、Hugging Face等知名開源社區(qū),這一模型的8月下載超300萬,達(dá)到全球同類開源模型最高,可以說成為了全球最受歡迎的GPT-4平替之一。

更值得一提的是,這一模型的研發(fā)團(tuán)隊(duì)還率先開放了模型訓(xùn)練過程,連復(fù)旦大學(xué)計(jì)算科學(xué)技術(shù)學(xué)院教授張奇等都盛贊其“為學(xué)術(shù)界做出了巨大貢獻(xiàn)”。

9月6日,由搜狗創(chuàng)始人王小川創(chuàng)辦的公司——百川智能——推出Baichuan 2大模型,同時(shí)公布了前文提到的最新進(jìn)展。王小川說:“Llama2開源模型時(shí)代已經(jīng)過去了,我們(開發(fā)者)現(xiàn)在可以獲得更友好且能力更強(qiáng)的開源模型?!?/p>

國產(chǎn)大模型正在改寫產(chǎn)業(yè)的游戲規(guī)則。作為首批開放大模型的企業(yè)之一,百川智能最新發(fā)布的Baichuan 2大模型實(shí)測(cè)性能如何?300萬/月下載量背后是什么樣的戰(zhàn)略和行動(dòng)布局?透過百川大模型的200多天實(shí)踐,我們能看到國產(chǎn)大模型什么樣的破局邏輯?

9月13日,通過對(duì)話百川智能技術(shù)聯(lián)創(chuàng)陳煒鵬,智東西對(duì)此進(jìn)行了深入探討。

Baichuan 2下載地址:https://github.com/baichuan-inc/Baichuan2

一、月下載超300萬,測(cè)評(píng)全面碾壓Llama 2

隨著“百模大戰(zhàn)”進(jìn)入深水區(qū),當(dāng)下大模型進(jìn)行簡單對(duì)話已不足為奇,還要追求“文理兼修”。

百川智能于9月6日新推出的Baichuan 2開源模型,不僅文科能力大幅提高,其在數(shù)學(xué)能力、代碼能力、安全能力、邏輯、語義理解都有明顯的提升。陳煒鵬告訴智東西,無論是在MMLU、CMMLU、BBH等綜合性基準(zhǔn)測(cè)評(píng)中,還是在GSM8k、HumanEval等垂直領(lǐng)域的測(cè)評(píng)中,抑或是多語言能力測(cè)評(píng)中,Baichuan 2都遠(yuǎn)超同類開源大模型。

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Baichuan 2相比于一代Baichuan的能力提升

?在所有主流中英文通用榜單上,Baichuan 2全面領(lǐng)先Llama 2,而Baichuan2-13B在測(cè)評(píng)中秒殺所有同尺寸開源模型。

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Baichuan 2在通用領(lǐng)域的測(cè)評(píng)成績

?在垂直行業(yè)測(cè)評(píng)榜單中,Baichuan2-13B在法律、數(shù)學(xué)、醫(yī)療領(lǐng)域的模型效果均優(yōu)于其他開源模型。

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Baichuan 2在垂直領(lǐng)域的測(cè)評(píng)成績

在跨語言能力測(cè)評(píng)榜單中,Baichuan2-13B在英語、法語、阿拉伯語、俄語中的能力都超過其它開源模型。

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Baichuan 2在多語言領(lǐng)域的測(cè)評(píng)成績

IDEA研究院講席科學(xué)家張家興參與了百川智能最新的發(fā)布會(huì),他在會(huì)上的圓桌峰會(huì)中稱:“國內(nèi)做大模型的團(tuán)隊(duì)也很多,能做到Baichuan 2這樣效果的還是很少?!睂?shí)際上,當(dāng)下很多大模型測(cè)評(píng)是圍繞單點(diǎn)維度進(jìn)行的,甚至大家看到GPT-4在某些榜單中已經(jīng)排到了10名往后,其實(shí)意義不大。而百川大模型公布了全面性的測(cè)評(píng)結(jié)果,相對(duì)更具有說服力。

“除了榜單,場景實(shí)測(cè)更重要。”陳煒鵬告訴智東西,“目前Baichuan在開源社區(qū)總下載量已經(jīng)超過500萬次,月下載量達(dá)到300多萬次?!?/p>

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Baichuan大模型在開源社區(qū)的下載情況

據(jù)悉,已有200+企業(yè)申請(qǐng)百川大模型開源商用授權(quán),并已將百川模型投入實(shí)際生產(chǎn)場景。申請(qǐng)企業(yè)涵蓋互聯(lián)網(wǎng)、軟件和信息技術(shù)、金融、法律、教育、制造、企業(yè)服務(wù)等眾多領(lǐng)域,合作伙伴群體仍在持續(xù)擴(kuò)大。

可以看到,不僅全面刷榜權(quán)威基準(zhǔn),百川智能開源大模型在各行各業(yè)已經(jīng)加速落地。

二、直擊商業(yè)協(xié)議“隱痛”,國產(chǎn)大模型要改變游戲規(guī)則

陳煒鵬告訴智東西,采用Baichuan 2,開發(fā)者不僅能夠得到直接的效果提升,還能夠獲得更多實(shí)際的便利。

比如很多開發(fā)者為Llama 2的商業(yè)協(xié)議所困,遷移到Baichuan 2則可以避開不少“隱痛”。

Llama 2的商用協(xié)議對(duì)中國開發(fā)者并不友好。雖然宣稱開源,但其商用協(xié)議聲明“僅適用于英文為主的環(huán)境”。也就是說,如果你做的模型更多是商用于中文場景,是拿不到開源協(xié)議的。

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Llama 2的商業(yè)協(xié)議部分內(nèi)容

對(duì)此,Baichuan 2面向中文領(lǐng)域全面開放,且在多語言環(huán)境中提供免費(fèi)服務(wù)。陳煒鵬告訴智東西,對(duì)于遷移到Baichuan 2的開發(fā)者來說,不僅模型效果得以提升,遷移成本也更低。Llama 2等模型所依賴的推理、加速、調(diào)優(yōu)等套件,其中超70%的套件Baichuan 2都同等支持,剩下30%則是不常用的。

直擊商業(yè)協(xié)議“隱痛”,國產(chǎn)大模型廠商正試圖改變硅谷主導(dǎo)的游戲規(guī)則。

王小川在Baichuan 2的發(fā)布會(huì)上說:“Llama 2開源模型的時(shí)代已經(jīng)過去了。我們現(xiàn)在可以獲得比Llama更友好且能力更強(qiáng)的開源模型,能夠幫助扶持中國整個(gè)生態(tài)的發(fā)展?!?/p>

為了構(gòu)建大模型生態(tài),9月6日,百川智能率先開放了其大模型訓(xùn)練過程,助力伙伴在理解訓(xùn)練過程的基礎(chǔ)上做微調(diào)和強(qiáng)化;同時(shí)其設(shè)立了大模型科研基金,通過跟CCF(中國計(jì)算機(jī)學(xué)會(huì))的合作,在今年內(nèi)會(huì)大約投入300~400萬人民幣支持高校項(xiàng)目開發(fā);此外,其還與AWS合作開展了黑客馬拉松活動(dòng),面向開發(fā)者提供算力支持,以鼓勵(lì)其進(jìn)行大模型應(yīng)用的開發(fā)。

在國內(nèi)開源社區(qū)建設(shè)方面,Baichuan大模型不僅在GitHub、Hugging Face等國際開源社區(qū)中上線,最新的Baichuan 2也已經(jīng)上線了國內(nèi)的魔塔社區(qū)、昇思社區(qū)等知名AI社區(qū),壯大本土AI大模型開源生態(tài)。

三、全球大模型“亂斗”,百川智能200天“蝶變”

當(dāng)下,全球AI大模型產(chǎn)業(yè)正進(jìn)入“亂斗”階段。

這廂,微軟將與OpenAI的“鐵聯(lián)盟”關(guān)系擱置一邊,轉(zhuǎn)而搭上Llama 2等開源模型;那廂,Meta也傳出明年要訓(xùn)練對(duì)標(biāo)GPT-3.5的閉源大模型,同時(shí)Anthropic、A21 Labs等創(chuàng)企也緊鑼密鼓,想要在全行業(yè)AI化的浪潮中分一杯羹。

在國內(nèi),從自主可控和數(shù)字化轉(zhuǎn)型需求出發(fā),“百模大戰(zhàn)”已經(jīng)打響近半年。知名行研機(jī)構(gòu)IDC預(yù)測(cè),2026年中國AI大模型市場規(guī)模將達(dá)到211億美元,互聯(lián)網(wǎng)大廠、AI創(chuàng)企、傳統(tǒng)行業(yè)龍頭企業(yè)紛紛加入了大模型角逐,計(jì)劃有朝一日做出趕超GPT-4的大模型。

誠然,GPT-4仍然是一堵高墻,但其早已不是業(yè)內(nèi)唯一選擇。國內(nèi)的開源大模型已經(jīng)在更多需要私有化部署、輕量化應(yīng)用和自主可控技術(shù)的場景,填補(bǔ)空缺位置。

百川智能正是率先抓住了這樣的市場空缺機(jī)遇,在過去的200多天里探索“蝶變”。

按照百川智能創(chuàng)立之初的計(jì)劃,其預(yù)計(jì)在2023年三季度推出500億規(guī)模參數(shù)的模型,四季度發(fā)表對(duì)標(biāo)GPT-3.5的模型,在2024年一季度的時(shí)候發(fā)布超級(jí)應(yīng)用。

實(shí)際上,團(tuán)隊(duì)一方面順利執(zhí)行原計(jì)劃,另一方面開辟了開源路線——在二季度發(fā)現(xiàn)中國有開源模型的需求,于是從6月開始以平均每月一次的頻率發(fā)布了開源模型,免費(fèi)開源了7B、13B不同尺寸的大模型。

為什么能夠如此快速反應(yīng),且迭代如此之快?

陳煒鵬向智東西道出背后的一個(gè)關(guān)鍵要點(diǎn):百川智能將搜索的經(jīng)驗(yàn)快速遷移到大模型的研發(fā)中?;仡櫞竽P偷挠?xùn)練過程,陳煒鵬解讀道,這就類似一個(gè)“造火箭”系統(tǒng)化工程。對(duì)于百川智能團(tuán)隊(duì)來說,這與其熟悉的搜索研發(fā)模式有相似之處,將復(fù)雜的系統(tǒng)做拆解,通過過程評(píng)估來推動(dòng)團(tuán)隊(duì)的協(xié)同,顯著提升團(tuán)隊(duì)的效果。

在技術(shù)方面,大模型和搜索有很多重合的技術(shù)棧,比如在大模型訓(xùn)練中關(guān)鍵的數(shù)據(jù)環(huán)節(jié),團(tuán)隊(duì)基于搜索經(jīng)驗(yàn)實(shí)現(xiàn)數(shù)據(jù)精選和處理,數(shù)據(jù)處理環(huán)節(jié)實(shí)現(xiàn)千億數(shù)據(jù)的小時(shí)級(jí)去重,并通過多粒度內(nèi)容質(zhì)量打分提升大模型質(zhì)量。正是基于這種精細(xì)構(gòu)造的數(shù)據(jù),百川智能采用了開源最大的2.6T語料訓(xùn)練7B/13B的模型。在模型研發(fā)的過程中,百川也探索了基于自己數(shù)據(jù)的scaling law(比例定律),實(shí)現(xiàn)了實(shí)現(xiàn)高效、穩(wěn)定、可預(yù)測(cè)。

據(jù)悉,團(tuán)隊(duì)在千卡的A800集群里面達(dá)到180TFLOPS的訓(xùn)練性能,使得機(jī)器利用率超過50%,在行業(yè)中間也處于最高水平之一。而跳出模型訓(xùn)練本身來說,通過多次迭代并通過開源社區(qū)反饋,百川智能不斷提升Baichuan大模型的競爭力,也同時(shí)為閉源大模型的開發(fā)提供助力。

結(jié)語:從閉源到開源,國產(chǎn)AI大模型加速突破

“百模大戰(zhàn)”狂飆200天,目前已進(jìn)入了階段性“交卷”時(shí)刻。國內(nèi)不僅有大廠的閉源大模型產(chǎn)品面向全社會(huì)開放,也有AI創(chuàng)企如百川智能研發(fā)的開源大模型獲得了權(quán)威測(cè)評(píng)、開發(fā)者社區(qū)和行業(yè)客戶的多方面認(rèn)可。

雖然GPT-4依然強(qiáng)勢(shì),但國內(nèi)開源大模型已經(jīng)能夠進(jìn)行部分替代。在私有化部署、輕量化應(yīng)用及自主可控要求高的場景中,以Baichuan 2為代表的大模型找到市場空缺,快速行動(dòng)。

與此同時(shí),相比于ChatGPT強(qiáng)調(diào)的語言對(duì)話能力,國內(nèi)大模型在數(shù)學(xué)、邏輯、代碼等領(lǐng)域都在加速突破。這些能力代表著大模型要真正擺脫“幻覺”,從而開拓著更廣闊的潛在市場。