智東西(公眾號(hào):zhidxcom)
作者 |? 徐豫
編輯 |? 心緣

智東西9月27日消息,國內(nèi)AI大模型創(chuàng)企巖芯數(shù)智(RockAI,簡稱巖芯)昨日發(fā)布了自研的新一代非Transformer架構(gòu)大模型,名為Yan1.3多模態(tài)大模型。該模型今年11月正式向開發(fā)者開源。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

目前,巖芯數(shù)智已實(shí)現(xiàn)該模型在手機(jī)、電腦、無人機(jī)、機(jī)器人等端側(cè)硬件上的離線部署,距離全面“脫機(jī)”使用AI大模型更近了一步。此外,該公司設(shè)立了1億元的Yan基金用于開展Yan生態(tài)合作,并透露其已與多家上下游運(yùn)營商和廠商洽談端側(cè)人工智能(AI)項(xiàng)目。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

Yan1.3多模態(tài)大模型在巖芯數(shù)智還有另一個(gè)叫法,即群體智能單元大模型。受到生物智能的啟發(fā),巖芯數(shù)智CEO劉凡平想要用類人腦機(jī)制的Yan架構(gòu),釋放機(jī)器智能的未知潛能。

會(huì)上,巖芯數(shù)智CEO劉凡平分享了他放棄大家一直看好的Transformer架構(gòu),堅(jiān)持非Transformer架構(gòu)的緣由和心路歷程。

“國內(nèi)AI模型開發(fā)者都在追隨海外的步伐,這像一場沒有終點(diǎn)的技術(shù)接力賽。”在劉凡平眼里,這種跟隨、模仿沒有意義。于是,他決定自研非Transformer架構(gòu)大模型。

不過,今年1月推出的Yan1.0架構(gòu)大模型,劉凡平直言受到了不少質(zhì)疑。此后,耗時(shí)8個(gè)月,經(jīng)歷了Yan1.1、Yan1.1 Plus、Yan1.2的3次迭代,巖芯數(shù)智才推出了Yan1.3版本。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

劉凡平稱,Yan1.3群體智能單元大模型突破了云端大模型和端側(cè)大模型之間的“楚河漢界”,是一個(gè)面向機(jī)器的群體智能單元大模型,將從另一個(gè)維度上孵化“進(jìn)化中的生命體”。

此外,今天的AI前沿論壇邀請了中科院上海微系統(tǒng)所研究員李孟和浙江大學(xué)人工智能系主任楊洋,劉凡平與他們一同探討AI大模型與腦科學(xué)在學(xué)術(shù)界和工業(yè)界的最新進(jìn)展。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

談及Yan架構(gòu)群體智能單元大模型的意義,楊洋認(rèn)為該大模型將普惠很多想用AI技術(shù)卻用不上的硬件廠商。這等同于“分發(fā)入場券”,楊洋說道,算力資源匱乏的個(gè)體也可以入局AI市場,激活整個(gè)AGI生態(tài)。

劉凡平補(bǔ)充道,Yan架構(gòu)群體智能單元大模型除了能夠降低個(gè)體的“入行門檻”,還能推動(dòng)個(gè)體智能化進(jìn)階到群體智能化,將現(xiàn)有的大量端側(cè)工具,做成一個(gè)可以本地直接使用的AI生命體,從而借助群體的力量突破機(jī)器智能的上限。

一、少內(nèi)存、小算力、不開模、低成本獲得端側(cè)AI能力

作為巖芯數(shù)智的創(chuàng)始人之一,鄒佳思分享了Yan1.3多模態(tài)大模型在端側(cè)硬件的落地情況。

通常來說,AI大模型在端側(cè)的應(yīng)用需要考慮到設(shè)備內(nèi)存占用、續(xù)航、硬件開模成本等難點(diǎn)。Yan1.3多模態(tài)大模型占用的內(nèi)存基本控制在1GB左右,遠(yuǎn)小于市面上的主流產(chǎn)品。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

同時(shí),通過非Transformer架構(gòu)和局部算力激活機(jī)制,低算力設(shè)備也可以適配該AI大模型,可以復(fù)用現(xiàn)有的存量設(shè)備。

1、飛行模式下可用,參數(shù)量僅3B,中低端手機(jī)也能絲滑運(yùn)行

在飛行模式下,用戶點(diǎn)開手機(jī)界面的RockAI(巖芯數(shù)智)智能助手App,用自然語言說出照片中的一些畫面要素,比如“一張?jiān)诤_吙慈章涞恼掌保琑ockAI智能助手就可以離線檢索出一系列相匹配的照片。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

同時(shí),RockAI智能助手還可以一鍵生成小紅書風(fēng)格的文案,耗時(shí)約7到8秒。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

此外,它還能參考畫面要素寫出不同主題的文案。聯(lián)網(wǎng)情況下,上述文案和照片能夠直接跳轉(zhuǎn)分享至微信朋友圈。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

據(jù)鄒佳思透露,RockAI智能助手App使用的是參數(shù)量僅3B的Yan1.3多模態(tài)大模型,不僅AI圖片生成文字所花費(fèi)的時(shí)間,比大部分手機(jī)上的AI語音助手快至少30%,而且大部分中低端手機(jī)的CPU都能帶得動(dòng)該模型。

2、迅兔AI PC拿下“五環(huán)外的”偏遠(yuǎn)地區(qū)市場份額

斷網(wǎng)情況下,部署了Yan1.3多模態(tài)大模型的迅兔AI PC,可以聽懂自然語言的語音指令,并支持音頻轉(zhuǎn)錄、會(huì)議總結(jié)、以文找圖、以圖找圖等功能。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

例如,對它說出“幫我把所有橘貓的照片都刪掉”,該AI PC就可以在離線狀態(tài)下找出相應(yīng)的照片。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

據(jù)巖芯數(shù)智方面透露,從目前已有的測試結(jié)果來看,該大模型單次音頻轉(zhuǎn)寫時(shí)長和文本輸出長度,可以“無上限”。

鄒佳思稱,在一些預(yù)算不多的偏遠(yuǎn)地區(qū)或海外國家,Yan1.3多模態(tài)大模型已然是PC界的一塊“香餑餑”。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

不論是高端、中端,還是低端的PC主機(jī)上,該端側(cè)AI模型都可以流暢運(yùn)行,“五環(huán)外的設(shè)備也可以用”,而且單臺(tái)內(nèi)嵌Yan1.3多模態(tài)大模型的AI PC價(jià)格,不到一臺(tái)微軟AI PC的1/5。

3、胖虎機(jī)器人賞畫作詩

小蘇和胖虎是巖芯數(shù)智兩款端側(cè)具備多模態(tài)認(rèn)知能力的機(jī)器人,巖芯數(shù)智主要負(fù)責(zé)其“大腦”和“小腦”,本體則由巖芯數(shù)智的合作伙伴提供。

他們可以在離線狀態(tài)下,控制肢體完成“七步成詩”、“詠春拳法”等復(fù)雜任務(wù),還能理解并執(zhí)行模糊指令,比如“讓一讓道”。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

胖虎機(jī)器人可以在離線狀態(tài)下“賞畫”和“寫詩”,還能理解周邊的環(huán)境。例如,除了掛畫內(nèi)容,它還描述到畫框外是“白色的墻壁和地板”。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

胖虎機(jī)器人接收到四步作詩的指令后,會(huì)邁一次左右腿,說一句詩詞,并將這個(gè)過程重復(fù)4次。

不過,在查詢一些天氣情況等實(shí)時(shí)變化的信息時(shí),胖虎機(jī)器人需要聯(lián)網(wǎng)才能給出準(zhǔn)確情報(bào),不然會(huì)“睜眼說瞎話”。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

針對本地部署Yan架構(gòu)大模型的機(jī)器人,鄒佳思希望將來這些機(jī)器人能夠全模態(tài)實(shí)時(shí)人機(jī)交互。

4、沒有網(wǎng)絡(luò),飛龍無人機(jī)也能“目光鎖定”河面垃圾、違規(guī)停車

飛龍無人機(jī)是國內(nèi)首個(gè)工業(yè)落地的多模態(tài)大模型無人機(jī),具有無損耗的百毫秒實(shí)時(shí)檢測能力。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

該無人機(jī)通過外掛算力來部署大模型。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

基于Yan1.3多模態(tài)大模型,飛龍無人機(jī)可以高效適配電力巡檢、安全監(jiān)控、環(huán)境監(jiān)測等應(yīng)用場景。

有運(yùn)營商向巖芯數(shù)智提供了低空5G模組。因此,在飛龍無人機(jī)的實(shí)景巡檢演示中,我們可以看到無人機(jī)通過攝像頭看見了“限低10米”的標(biāo)注后,會(huì)自動(dòng)將巡航高度從5.08米拉升到14.58米。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

路邊垃圾桶有垃圾溢出、河面漂浮著垃圾、不規(guī)范停車的行為……這些飛龍無人機(jī)都可以自動(dòng)掃視、識(shí)別并記錄。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

該無人機(jī)還可以根據(jù)指令A(yù)I拍圖,自動(dòng)捕捉最佳角度,并一鍵挑選你的“人生照片”。

二、整體性能跑贏Llama 3,Yan1.3可實(shí)現(xiàn)CPU秒級(jí)人機(jī)交互

巖芯數(shù)智CEO劉凡平用螞蟻群、狼群、大雁群的生存法則,來類比Yan1.3群體智能單元大模型去中心化的工作原理。

論如何激發(fā)機(jī)器智能的群體智能,巖芯數(shù)智方面認(rèn)為需要同時(shí)滿足以下3點(diǎn):

1、搭載了具備自主學(xué)習(xí)能力的若干智能單元;

2、這些分散的智能單元,可以通過環(huán)境感知、自我組織和互動(dòng)協(xié)作,共同解決復(fù)雜問題;

3、并且要在不斷變化的環(huán)境中,實(shí)現(xiàn)整體智能提升。

Yan架構(gòu)大模型采用了巖芯數(shù)智自研的非Transformer架構(gòu)。劉凡平稱,與市面上采用Transformer架構(gòu)和非Transformer架構(gòu)的主流模型相比,Yan架構(gòu)大模型的性能、效率在同等參數(shù)量下都更高。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

目前來看,在小參數(shù)量級(jí)別,Yan1.3多模態(tài)大模型的整體性能超過Llama 3,各方面能力基本優(yōu)于Pythia和Mamba。

在劉凡平看來,Yan1.3群體智能單元大模型有3個(gè)亮點(diǎn)。

首先,它是全球人機(jī)交互領(lǐng)域第一個(gè)端到端的多模態(tài)大模型。其模擬了人腦處理信息的方式,主要通過文本、音頻、視頻輸入信息,然后通過文本和音頻輸出。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

至于為什么不做AI文本生成視頻,劉凡平在會(huì)后接受采訪時(shí)稱,巖芯數(shù)智更傾向于訓(xùn)練Yan架構(gòu)多模態(tài)大模型具備類人的視頻剪輯、制作能力,而不是直接生成視頻。這種構(gòu)建大模型的思路,為AI未來自主修改、編輯視頻留有可行性。

其次,它是全球首個(gè)跨越廣泛設(shè)備的多模態(tài)大模型。該模型的應(yīng)用范圍覆蓋電視、手機(jī)、VR、車載、APIC、智慧家居、機(jī)頂盒、樹莓派、具身機(jī)器人、教育機(jī)器人、無人機(jī)等。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

最后,該模型在實(shí)時(shí)人機(jī)交互上可以達(dá)到CPU秒級(jí)、GPU百毫秒級(jí)的速度?!皼]有誰比我們更快了,”劉凡平說道。

三、訓(xùn)練數(shù)據(jù)不能過于“純凈”,AI大模型應(yīng)學(xué)會(huì)自主淘汰冗雜信息

為什么說傳統(tǒng)Transformer架構(gòu)大模型并不是AGI的最優(yōu)解呢?劉凡平解釋道,雖然市面上大部分模型都具備理解表達(dá)能力,但幾乎還沒有選擇遺忘和自主學(xué)習(xí)的能力。

其中,“選擇遺忘”指向的是AI模型的動(dòng)態(tài)篩選、更新信息的能力,使其和人類大腦一樣,在真實(shí)的物理世界中保持活躍的狀態(tài)。

而群體智能單元大模型兼具這3項(xiàng)核心能力,底層邏輯更類人腦,也更接近AGI。

在巖芯數(shù)智的規(guī)劃中,機(jī)器智能走向群體智能要經(jīng)歷4個(gè)階段,分別是100%自研具有創(chuàng)新性的大模型基礎(chǔ)架構(gòu)、構(gòu)建多元化硬件生態(tài)、實(shí)現(xiàn)自適應(yīng)智能進(jìn)化和協(xié)同化群體智能。

就Yan1.3群體智能單元大模型而言,巖芯數(shù)智來到激發(fā)群體智能的第二階段。

目前,該公司正在將跨平臺(tái)、低算力、多模態(tài)的群體智能單元大模型,通過內(nèi)嵌或外掛的方式,部署在大疆無人機(jī)、樹莓派單板計(jì)算機(jī)等硬件上,并且無損運(yùn)行。

下一步,Yan架構(gòu)大模型將重點(diǎn)攻破自主學(xué)習(xí)與自我優(yōu)化能力上。

巖芯數(shù)智方面稱,有計(jì)劃構(gòu)建一種能夠持續(xù)進(jìn)化的智慧生物,并在其中搭載一個(gè)信息互換與協(xié)作體系,從而實(shí)現(xiàn)機(jī)器群體智能的突破性進(jìn)展。這也是Yan2.0,以及Yan2.0不斷迭代后所要達(dá)到的目標(biāo)。

設(shè)計(jì)一個(gè)高效的AI模型是推進(jìn)群體智能的第一步,巖芯數(shù)智選擇無量化、無裁剪地原生部署Yan架構(gòu)大模型。群體智能的核心是個(gè)體,可以將其理解為端。這也意味著,AI模型要能夠在端側(cè)運(yùn)行,才能去學(xué)習(xí)、去進(jìn)化。

然而,劉凡平解釋道,目前主流的Transformer架構(gòu)模型只能量化、裁剪后,才能在端側(cè)運(yùn)行。經(jīng)過“閹割”后的AI模型,也不再具備自主學(xué)習(xí)的能力了。

為了進(jìn)一步提升Yan架構(gòu)大模型的自主學(xué)習(xí)能力,巖芯數(shù)智方面提出了訓(xùn)推同步的策略,即大模型輸入信息的時(shí)候?qū)儆趯W(xué)習(xí)過程,輸出信息的時(shí)候?qū)儆谟?xùn)練過程,這兩個(gè)步驟是實(shí)時(shí)同步發(fā)生的。CEO劉凡平視其為“群體智能單元大模型自主學(xué)習(xí)實(shí)現(xiàn)的最佳方式”。

同時(shí),該公司還將Yan架構(gòu)大模型放在一個(gè)“充滿噪聲”的物理環(huán)境中。

一個(gè)“真空無害”的環(huán)境并不利于孩童的成長,AI機(jī)器也是一樣的。CEO劉凡平稱,野生的數(shù)據(jù)環(huán)境才是最真實(shí)的,信息會(huì)散落在各處,比如現(xiàn)場大屏幕上的PPT、音響中播放的音樂、觀眾的神情姿態(tài)……

因此,劉凡平希望訓(xùn)練AI機(jī)器去自主捕捉、篩選和利用信息,而非坐等投喂人工精選、提純的數(shù)據(jù)。

四、終身學(xué)習(xí)的能力,是非Transformer架構(gòu)大模型的核心優(yōu)勢

作為Transformer架構(gòu)的代表,OpenAI只是暫時(shí)站在了時(shí)代的聚光燈下,中科院上海微系統(tǒng)所研究員、博士生導(dǎo)師李孟說道。一個(gè)新技術(shù)從出現(xiàn),到逐漸被人們接受,再到全面暴開。期間經(jīng)歷爭議,也收獲掌聲,這都是一家創(chuàng)企的必經(jīng)之路。

巖芯數(shù)智劉凡平相信,一定會(huì)有一個(gè)新的架構(gòu)出現(xiàn),來替代Transformer架構(gòu),這也遵循了客觀規(guī)律。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

《Attention is All You Need》作者Aidan Gomez今年4月曾拋出類似的觀點(diǎn),這個(gè)世界需要比Transformer更好的架構(gòu),我們所有人都希望它能被某種新架構(gòu)所取代,將我們帶到一個(gè)新的性能高原?,F(xiàn)在,我們使用了過多的計(jì)算資源,也做了很多無用的計(jì)算。

劉凡平也曾嘗試開發(fā)過Transformer架構(gòu)的大模型,但他最終發(fā)現(xiàn)這種思路無法模擬人腦的運(yùn)行規(guī)則,難以通向AGI的終極目標(biāo)。

“AI模型最好的榜單不是評(píng)測專業(yè)能力有多強(qiáng),而是去評(píng)測學(xué)習(xí)能力有多強(qiáng)?!眲⒎财秸J(rèn)為,傳統(tǒng)Transformer架構(gòu)大模型的發(fā)展模式類似于“造神”,模型參數(shù)量、算力越卷越龐大,但卻丟掉了自主學(xué)習(xí)能力。

放在生物圈中,如果說傳統(tǒng)Transformer架構(gòu)是“一鯨落而萬物生”,那么Yan架構(gòu)則是沖不散的小魚群、遍布海底的珊瑚、隨波漂浮的微生物。

用浙江大學(xué)人工智能系主任、博士生導(dǎo)師楊洋的話來說,OpenAI致力于讓單只螞蟻?zhàn)兊酶斆?,而巖芯數(shù)智則是探索一個(gè)機(jī)制,讓螞蟻群體內(nèi)的每只螞蟻互相協(xié)作起來。

在AI向生物智能進(jìn)化的途中,巖芯數(shù)智想要編織一張AI智能體(Agent)的大網(wǎng)。嘗試多種方法后,巖芯數(shù)智提出了在端側(cè)無損推理的兩大核心技術(shù),一是以底層神經(jīng)網(wǎng)絡(luò)架構(gòu)MCSD替代Transformer的Attention機(jī)制,二是基于仿生神經(jīng)元驅(qū)動(dòng)的選擇算法實(shí)現(xiàn)類腦分區(qū)激活。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

這兩種機(jī)制能夠較大幅度地減少計(jì)算復(fù)雜度和算力消耗,以低功耗、低成本驅(qū)動(dòng)高性能。目前,Yan架構(gòu)多模態(tài)大模型已經(jīng)可以在樹莓派的單板計(jì)算機(jī)上無損推理。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

結(jié)語:群體智能是通向AGI的新路徑,腦科學(xué)能幫大忙

目前,包括申請中的專利在內(nèi),巖芯數(shù)智已獲得海內(nèi)外超50項(xiàng)AI相關(guān)的技術(shù)專利。在巖芯數(shù)智董事長陳代千看來,AI技術(shù)將逐漸從云端集群走向電源設(shè)備,從集中式處理走向分布式智能。

未來,AI的端側(cè)應(yīng)用無需依賴大量的云服務(wù),而是在設(shè)備終端本地執(zhí)行數(shù)據(jù)處理,從而有效降低數(shù)據(jù)的傳輸時(shí)延和泄露風(fēng)險(xiǎn)。

國產(chǎn)非Transformer大模型再升級(jí)!押注群體智能,落地五大硬件,性能跑贏Llama 3

中科院上海微系統(tǒng)所研究員、博士生導(dǎo)師李孟認(rèn)為,群體智能對于當(dāng)前階段的人工智能(AI)發(fā)展非常重要。看到大模型性能真正落地各種端側(cè)設(shè)備后,他感到很激動(dòng)。

在巖芯數(shù)智CEO劉凡平看來,群體智能單元大模型的研發(fā)與腦科學(xué)的研究有諸多相似之處,都是AI與人腦的結(jié)合研究,而巖芯數(shù)智也是國內(nèi)率先把腦科學(xué)與AI大模型兩者商業(yè)化的公司。

浙江大學(xué)人工智能系主任、博士生導(dǎo)師楊洋也認(rèn)可了腦科學(xué)對于AI技術(shù)的獨(dú)特價(jià)值。

在過往針對腦電大模型的研發(fā)中,楊洋發(fā)現(xiàn)AI模型的泛化能力不足是腦電大模型研發(fā)的一大瓶頸。目前的腦電大模型難以在不同的個(gè)體間通用,他認(rèn)為,Yan架構(gòu)大模型或許能解決這一點(diǎn),可以利用其大幅提升腦電大模型的泛化能力。

李孟補(bǔ)充道,這類似于生物學(xué)中神經(jīng)元的概念,要有一個(gè)總的神經(jīng)中樞,才能有效地控制各個(gè)人體系統(tǒng)。

巖芯數(shù)智董事長陳代千相信,最終所有用戶都通過各種端側(cè)應(yīng)用和設(shè)備來調(diào)用AI模型,而每一個(gè)端側(cè)AI都是一個(gè)獨(dú)立的群體智能單元,并且將從整體上改變?nèi)祟愃瓶氐奈锢硎澜纭?/p>