智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣

智東西5月22日報道,今天,百川智能發(fā)布新一代大模型Baichuan 4,以及首款A(yù)I助手“百小應(yīng)”。Baichuan 4相較Baichuan 3,通用能力提升超過10%,數(shù)學(xué)和代碼能力分別提升14%和9%。

同日,SuperCLUE發(fā)布的通用大模型綜合性中文測評基準(zhǔn)上,Baichuan 4得分80.64位列第一,在中文綜合能力測試中超過GPT-4-Turbo-0125。戲劇性的是,昨日,商湯科技日日新SenseNova 5.0大模型剛以總分80.03分的優(yōu)異成績刷新國內(nèi)最好成績,在中文綜合成績上超過GPT-4-Turbo-0125,今日評測表現(xiàn)中位列第二。

國產(chǎn)最強大模型易主!Baichuan 4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款A(yù)I助手來了

除大模型升級外,百川發(fā)布了首款A(yù)I助手百小應(yīng),基于Baichuan 4的能力,該助手具有定向搜索、多輪搜索能力,可以通過嵌入搜索結(jié)果、表格可視化搜索結(jié)果等為用戶提供更加針對性的答案。王小川將百小應(yīng)的能力定義為懂搜索、會提問,懂搜索就是讓模型掌握專業(yè)的搜索技能,會提問就是讓模型引導(dǎo)用戶清晰表達自身的需求。

百小應(yīng)現(xiàn)在已經(jīng)在Web端(ying.ai)及移動端各大應(yīng)用商店同步上線。

同時,百川智能宣布開放Baichuan 4、aichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API四款A(yù)PI。

開發(fā)者體驗中心:https://platform.baichuan-ai.com/playground

自去年4月成立以來,百川智能已經(jīng)發(fā)布12款模型,王小川提到,百川智能之后會放慢模型的發(fā)布節(jié)奏,頻率為按照季度發(fā)布,目前整體的思路為超級應(yīng)用+超級模型雙輪驅(qū)動,今年年內(nèi)會有大的升級。

提及最近火爆的大模型價格戰(zhàn)話題,王小川談道,他現(xiàn)在抱著“吃瓜”心態(tài),百川智能的思路就是超級應(yīng)用+超級模型雙輪驅(qū)動,因此他們認為百川智能的策略與面向B端的商業(yè)化價格降低問題無關(guān),更多還是看模型夠不夠強、是否有超級應(yīng)用產(chǎn)生。

他認為降價熱潮可能是由于首先大家看好這個時代的發(fā)展前景,所以不惜免費也要入場;第二點為To B廠商最后賣的不是模型而是整套云服務(wù),這類似于此前AI四小龍做To B的策略。百川智能不會將這樣的(降價)商業(yè)模式當(dāng)作重點。

針對超級應(yīng)用,王小川認為,現(xiàn)在的應(yīng)用基本都不是超級應(yīng)用,超級應(yīng)用主要體現(xiàn)在使用人數(shù)有數(shù)量級提升,同時能滿足用戶剛需,充分理解用戶意圖,具有更高的可靠性。對于使用人數(shù)的數(shù)量級提升,他提到,總體達到3000萬-3億用戶量之間可以稱作超級應(yīng)用。

一、全方位領(lǐng)先國產(chǎn)大模型,多模態(tài)能力接近GPT-4V

在理科能力方面,Baichuan 4得分76.90分,國內(nèi)模型中排名第一,略高于SenseChat V5,較GPT-4-Turbo-0125低4.23分。其中,邏輯推理(74.4)、工具使用(80.8)均刷新國內(nèi)最好成績;在代碼能力上還有一定優(yōu)化空間。

國產(chǎn)最強大模型易主!Baichuan 4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款A(yù)I助手來了

文科方面,Baichuan 4在文科任務(wù)上表現(xiàn)出色,取得83.12的高分,國內(nèi)外模型中排名第一,較GPT-4-Turbo-0125高5.33分。其中,知識百科(89.8)、長文本(80.8)、生成創(chuàng)作(83.4)、傳統(tǒng)安全(90.2)均刷新國內(nèi)最好成績;

國產(chǎn)最強大模型易主!Baichuan 4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款A(yù)I助手來了

與國內(nèi)外主流模型相比,下圖左側(cè)圖片中Baichuan 4是圖中橙色線條,國內(nèi)大模型的平均水平是藍色線條,百川智能已經(jīng)全方位處于領(lǐng)先。

與國外模型相比,Baichuan 4在知識百科、長文本、生成創(chuàng)作等文科類中文任務(wù)上優(yōu)于國外大模型。

國產(chǎn)最強大模型易主!Baichuan 4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款A(yù)I助手來了

在多模態(tài)能力方面,Baichuan 4評測結(jié)果接近GPT-4V。在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等評測基準(zhǔn)領(lǐng)先Gemini Pro、Claude3-Sonnet等多模態(tài)模型。

國產(chǎn)最強大模型易主!Baichuan 4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款A(yù)I助手來了

王小川介紹了Baichuan 4背后的技術(shù)創(chuàng)新點。

在數(shù)據(jù)方面,百川智能采用合成數(shù)據(jù)擴充訓(xùn)練的數(shù)據(jù)量與提升質(zhì)量,模型方面,從經(jīng)驗科學(xué)走向數(shù)學(xué)化,他提到,此前與OpenAI技術(shù)人員交流時提到,GPT-4和GPT-3.5的主要區(qū)別在于,通過大量實驗將玄學(xué)問題變?yōu)榭茖W(xué)問題,通過實驗找到背后的規(guī)律,使得其調(diào)參時隨機性減少。因此在長窗口中,百川智能對各個尺寸進行嘗試,從而找出更合適的參數(shù)設(shè)置。

在對齊方面,百川智能優(yōu)化了推理、規(guī)劃、多模態(tài)指令跟隨(Instruct Following)能力,通過Loss驅(qū)動的數(shù)據(jù)選取與訓(xùn)練,多階段爬坡、多模型參數(shù)融合等方式提升模型的關(guān)鍵指標(biāo)和穩(wěn)定性。這種方式與MoE模型相似,都是將一個模型分成多個模型進行訓(xùn)練再合成一個模型,使得整個模型能力穩(wěn)定性得到提升。

強化學(xué)習(xí)使得機器在訓(xùn)練之外能夠獲得外部反饋實現(xiàn)內(nèi)部改進。因此,在這一階段,百川智能有兩個階段性目標(biāo)。

第一個是針對于大模型安全的真實、無害、有用3H階段,制定三階段強化方法,使得三個目標(biāo)分階段強化訓(xùn)練。第二個是實現(xiàn)RLHF和RLAIF的融合,將人類反饋和機器反饋模型相結(jié)合,提升模型的指令遵循等能力。

在成本方面,Baichuan 4采用了新的投機采樣方案Clover,通過將序列知識與并行解碼結(jié)合,使得投機采樣的命中率提升至60%,成本降低30%以上。

二、支持多輪、定向搜索,分析長篇論文、一分鐘讀完公司財報

王小川提到,不同于信息時代工具屬性的產(chǎn)品,百川智能要讓AI從工具變?yōu)榛锇?,AI助手就是從工具到伙伴的過渡階段。

百小應(yīng)融合了Baichuan 4與百川智能的搜索技術(shù),擁有多步搜索、智能定向搜索等能力,具備懂搜索、會提問兩大獨特優(yōu)勢。

演示案例中,在回答“引擎蓋打不開怎么辦”這一問題,國內(nèi)主流模型會籠統(tǒng)回答一些可能的處理方法。

百小應(yīng)會先詢問車的型號,然后通過聯(lián)網(wǎng)搜索給出基本的打開方案,如果沒有解決會再次詢問用戶的所在地點推薦維修服務(wù),并給出一些緊急情況的處理辦法。

國產(chǎn)最強大模型易主!Baichuan 4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款A(yù)I助手來了

百小應(yīng)通過多輪搜索,可以在復(fù)雜的問題場景下有效獲取到更有價值的答案。其通過精準(zhǔn)定位問題領(lǐng)域,然后訪問權(quán)威站點進行補充搜索,呈現(xiàn)結(jié)果中也會附加相應(yīng)的網(wǎng)頁鏈接。

國產(chǎn)最強大模型易主!Baichuan 4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款A(yù)I助手來了

同時,其輸出內(nèi)容會進行結(jié)構(gòu)化呈現(xiàn),通過表格對信息進行梳理,便于用戶在行業(yè)分析、調(diào)研時加快對數(shù)據(jù)的理解。為了確保輸出信息的準(zhǔn)確度,百小應(yīng)的輸出結(jié)果有來源參考,用戶可以點擊引用角標(biāo)快速校驗搜索結(jié)果。

國產(chǎn)最強大模型易主!Baichuan 4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款A(yù)I助手來了

會提問,就是引導(dǎo)用戶明確表述自身的需求。如一些用戶在提問時,問題過于籠統(tǒng)、抽象,百小應(yīng)就會先與用戶進行互動,一步步明確具體的需求。

如向其提問婚禮策劃方案時,它不會直接給出答案,而是先詢問賓客的數(shù)量以及用戶的預(yù)算情況;在幫助用戶撰寫小紅書種草文案時,百小應(yīng)會給出不同場景、風(fēng)格的文案參考選項,用戶快速點選就能獲得答案。

國產(chǎn)最強大模型易主!Baichuan 4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款A(yù)I助手來了

除此以外,百小應(yīng)還支持上傳PDFword文檔,或者直接輸入網(wǎng)頁鏈接(URL),閱讀并分析書籍、報告、學(xué)術(shù)論文等長篇內(nèi)容,僅用一分鐘便能讀完上市公司財報。

Baichuan 4多模態(tài)能力的支持下,用戶在提問的同時還可以同步上傳圖片,對圖片內(nèi)容進行解讀,或者將圖片作為補充材料,獲取更精準(zhǔn)的回答;并且支持語音交互。

三、MaaS新用戶可獲得1000萬免費token,AaaS服務(wù)可免費試用

百川智能推出了全新的MaaS+AaaS服務(wù),MaaS版塊由基座模型組成,分為旗艦版和專業(yè)版。

旗艦版將全量開放Baichuan 4的各項能力;專業(yè)版包含Baichuan3-TurboBaichuan3-Turbo-128K兩款模型,在價格方面相比旗艦版Baichuan 4更實惠,且均針對企業(yè)用的高頻場景進行了針對性優(yōu)化,綜合測試相比GPT3.5整體效果提升8.9%。即日起,MaaS新用戶可以獲得1000萬免費token

Assitants API是百川智能在Baichuan 4基礎(chǔ)上針對Agent構(gòu)建推出的API接口,不僅支持Code interpreter、RAG內(nèi)建工具,還支持自定義工具調(diào)用,方便企業(yè)接入各種豐富復(fù)雜的API。評測結(jié)果顯示其工具調(diào)用能力接近Open AI Assistants API,本次發(fā)布的Assitants API現(xiàn)已開啟公測。

國產(chǎn)最強大模型易主!Baichuan 4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款A(yù)I助手來了

未來,百川智能將推出零代碼Agent創(chuàng)建平臺產(chǎn)品,讓業(yè)務(wù)人員通過自然語言的方式,也能創(chuàng)建Agent,更好地賦能企業(yè)智能化發(fā)展。

結(jié)語:“超級模型+超級應(yīng)用”雙輪驅(qū)動,百川智能走出一條大模型應(yīng)用獨特之路

作為國內(nèi)大模型產(chǎn)業(yè)中備受關(guān)注的明星創(chuàng)企,百川智能自王小川搭建團隊、籌備研發(fā)起,已經(jīng)發(fā)布12個大模型并推出首款A(yù)I助手,可以看出不論在模型的發(fā)布速度、模型的能力表現(xiàn)以及AI應(yīng)用的開發(fā)方面,百川智能已經(jīng)走出了一條獨屬于自己的大模型產(chǎn)品落地、商業(yè)化應(yīng)用之路。

目前來看,距離百川智能想要做“超級模型+超級應(yīng)用”的愿景仍然有一定距離,但從其剛發(fā)布的模型與應(yīng)用來看,百川智能的模型表現(xiàn)霸榜國產(chǎn)大模型,綜合表現(xiàn)更強,在AI助手方面,百川智能沒有遵循其他搜索應(yīng)用的思路,而是通過多輪搜索等將大模型與搜索技術(shù)相結(jié)合,真正朝著滿足用戶剛需的方向演進。

在眾多科技巨頭和創(chuàng)企紛紛推出各種大型AI模型應(yīng)用的今天,百川智能基于其在大模型以及搜索技術(shù)方面的完整技術(shù)棧,同時擁有原先的搜狗搜索技術(shù)團隊做支撐,以AI搜索助手為切入口,朝著打造擁有數(shù)億用戶、能滿足用戶剛需的超級應(yīng)用沖刺。