智東西(公眾號(hào):zhidxcom)
作者 | ?ZeR0
編輯 | ?漠影

智東西6月9日?qǐng)?bào)道,當(dāng)生成式AI和大模型的颶風(fēng)呼嘯而來,全球掀起了一場(chǎng)狂熱的GPT競(jìng)賽,大量緊迫的前沿議題隨之接踵而至:

語言、視覺、多模態(tài)大模型分別有哪些研究突破口?如何顯著提升大模型的計(jì)算速度、效率和擴(kuò)展性?怎樣確保大模型始終安全可控、符合人類意圖和價(jià)值觀?國內(nèi)產(chǎn)學(xué)研界亟待做些什么,才能更好地迎接大模型時(shí)代?

這些問題的答案,正在今日開幕的國內(nèi)現(xiàn)象級(jí)AI內(nèi)行頂級(jí)盛會(huì)——2023北京智源大會(huì)上——碰撞出專業(yè)深度的火花。

隨著AI大模型爆火,智源大會(huì)因規(guī)格之高、嘉賓陣容之強(qiáng)大而廣受矚目:這場(chǎng)面向AI精英人群的專業(yè)大會(huì)已經(jīng)連續(xù)舉辦5年,即日起兩天15場(chǎng)專題論壇匯聚了一眾AI行業(yè)翹楚,從多位深度學(xué)習(xí)先驅(qū)、圖靈獎(jiǎng)得主與院士,到聲名烜赫的OpenAI聯(lián)合創(chuàng)始人Sam Altman、Midjourney創(chuàng)始人David Holz,以及Google DeepMind、Anthropic、Stability AI、HuggingFace、Cohere等明星AI團(tuán)隊(duì)和Meta、谷歌、微軟等科技巨頭的代表,都將齊聚一堂,探討影響AI未來的核心議題。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

智源“悟道”大模型項(xiàng)目連創(chuàng)「中國首個(gè)+世界最大」大模型紀(jì)錄之后,智源研究院在開幕式上重磅宣布:“悟道3.0”邁向全面開源、嶄新階段

大會(huì)期間,智源研究院發(fā)布首個(gè)支持中英雙語知識(shí)、開源商用許可的“悟道·天鷹(Aquila)”語言大模型系列,提供“能力-任務(wù)-指標(biāo)”三維評(píng)測(cè)框架的“天秤(FlagEval)”大模型評(píng)測(cè)體系,力求打造大模型時(shí)代“新Linux”生態(tài)的FlagOpen大模型開源技術(shù)體系,以及6項(xiàng)“悟道·視界”視覺大模型研究成果。

智源研究院院長黃鐵軍在與智東西等媒體交流時(shí)談道,大模型已成為AI產(chǎn)業(yè)發(fā)展的主導(dǎo)力量,智源研究院希望未來做更多的支撐性工作,為大模型時(shí)代的早日形成貢獻(xiàn)一份獨(dú)特力量。?智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

一、悟道·天鷹(Aquila)+天秤(FlagEval),打造大模型能力與評(píng)測(cè)標(biāo)準(zhǔn)雙標(biāo)桿

為了推動(dòng)大模型在產(chǎn)業(yè)落地和技術(shù)創(chuàng)新,智源研究院發(fā)布了“開源商用許可語言大模型系列+開放評(píng)測(cè)平臺(tái)”兩大重磅成果。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

先來看一下“悟道·天鷹”Aquila語言大模型系列。

這是首個(gè)具備中英雙語知識(shí)、支持商用許可協(xié)議、支持國內(nèi)數(shù)據(jù)合規(guī)要求的開源語言大模型。悟道·天鷹(Aquila)系列模型包括 Aquila基礎(chǔ)模型(7B、33B),AquilaChat對(duì)話模型(7B、33B)以及 AquilaCode “文本-代碼”生成模型。

開源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

現(xiàn)場(chǎng),智源重點(diǎn)展示了“悟道·天鷹”AquilaChat對(duì)話模型的4項(xiàng)技能:對(duì)話、寫作、可拓展特殊指令規(guī)范,強(qiáng)大的指令分解能力。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

首先是對(duì)話能力,AquilaChat非常謹(jǐn)慎地拒絕回答像“如何瞞過安檢帶著炸藥上飛機(jī)”這樣存在安全風(fēng)險(xiǎn)的問題,同時(shí)能就乘坐飛機(jī)的常見問題給出簡明清晰的答案。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

寫高考作文也不在話下。AquilaChat拿今年高考作文全國甲卷的“時(shí)間的仆人”題目練了練手,僅用不到10秒就生成了一篇切題的完整文章。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

此外,AquilaChat通過定義可擴(kuò)展的特殊指令規(guī)范,實(shí)現(xiàn)通過AquilaChat對(duì)其它模型和工具的調(diào)用,且易于擴(kuò)展。例如,調(diào)用智源開源的AltDiffusion多語言文圖生成模型,實(shí)現(xiàn)了流暢的文圖生成能力

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

AquilaChat還擁有強(qiáng)大的指令分解能力,配合智源InstrucFace多步可控文生圖模型,能夠?qū)崿F(xiàn)對(duì)人臉圖片的多步可控編輯。

比如要求將照片中的女人皮膚變白、眼睛變藍(lán)、動(dòng)漫化,AquilaChat會(huì)將復(fù)雜指令拆解成多個(gè)步驟,依次完成。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

再比如要求把圖片里女生的頭發(fā)變成淡黃色、皮膚變成古銅色、臉色變得更加紅潤,AquilaChat也能出色地分解并完成任務(wù)。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

AquilaCode-7B“文本-代碼”生成模型,基于Aquila-7B強(qiáng)大的基礎(chǔ)模型能力,以小數(shù)據(jù)集、小參數(shù)量,實(shí)現(xiàn)高性能,是目前支持中英雙語的、性能最好的開源代碼模型。

AquilaCode-7B分別在英偉達(dá)和國產(chǎn)芯片上完成了代碼模型的訓(xùn)練,并通過對(duì)多種架構(gòu)的代碼+模型開源,推動(dòng)芯片創(chuàng)新與多元化發(fā)展。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

值得一提的是,悟道·天鷹Aquila語言大模型基座是在中英文高質(zhì)量語料(有近40%的中文語料)基礎(chǔ)上從零開始訓(xùn)練的,通過數(shù)據(jù)質(zhì)量的控制、深層次數(shù)據(jù)清洗處理、多種訓(xùn)練的優(yōu)化方法,實(shí)現(xiàn)在更小的數(shù)據(jù)集、更短的訓(xùn)練時(shí)間,獲得了比其它開源模型更優(yōu)的性能。

Aquila基礎(chǔ)模型底座(7B、33B)在技術(shù)上繼承了GPT-3、LLaMA等模型的架構(gòu)設(shè)計(jì)優(yōu)點(diǎn),使用智源FlagAI開源代碼框架,替換了一批更高效的底層算子實(shí)現(xiàn)、重新設(shè)計(jì)實(shí)現(xiàn)了中英雙語的tokenizer,升級(jí)了BMTrain并行訓(xùn)練方法。

結(jié)果,Aquila在訓(xùn)練過程中,實(shí)現(xiàn)了比Megtron-LM+ZeRO-2將近8倍的訓(xùn)練效率;訓(xùn)練效率也比LLaMA提升了24%。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

智源研究院副院長兼總工程師林詠華告訴智東西,一個(gè)消費(fèi)級(jí)顯卡就能運(yùn)行Aquila-7B模型:如果是FP16精度,Aquila-7B模型至少可以在20G顯存上跑起來;如果是INT8精度,則會(huì)進(jìn)一步減少顯存使用。

“我們的發(fā)布只是一個(gè)起點(diǎn)?!彼劦溃窃唇裉齑蛟炝艘徽住按竽P瓦M(jìn)化流水線”,基于此,智源會(huì)讓大模型在更多數(shù)據(jù)、更多能力的增加之下,源源不斷地成長。

智源研究院首創(chuàng)“可持續(xù)、自動(dòng)化評(píng)測(cè)輔助模型訓(xùn)練”的新范式,將大模型訓(xùn)練與評(píng)測(cè)結(jié)合,利用階段性的自動(dòng)化評(píng)測(cè)結(jié)果,指導(dǎo)后續(xù)訓(xùn)練的方向、選擇更優(yōu)路徑,大幅提升模型訓(xùn)練的效果,實(shí)現(xiàn)了“大模型進(jìn)化流水線”,悟道 · 天鷹Aquila語言大模型系列后續(xù)也將持續(xù)迭代、持續(xù)開源。

同時(shí),智源研究院發(fā)布了FlagEval(天秤)大語言模型評(píng)測(cè)體系及開放平臺(tái)。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

目前大模型評(píng)測(cè)存在諸多難點(diǎn)。相比傳統(tǒng)小模型,大模型規(guī)模大、結(jié)構(gòu)更復(fù)雜、具備多種能力,且步入內(nèi)容生成和人類認(rèn)知領(lǐng)域。傳統(tǒng)評(píng)測(cè)方法已經(jīng)遠(yuǎn)遠(yuǎn)無法滿足大模型評(píng)測(cè)的需求。

因此,是否有能力打造一套“自動(dòng)化評(píng)測(cè)+人工主觀評(píng)測(cè)”的大模型全面評(píng)價(jià)系統(tǒng),并實(shí)現(xiàn)從評(píng)測(cè)結(jié)果到模型能力分析、再到模型能力提升的自動(dòng)閉環(huán),已是基礎(chǔ)大模型創(chuàng)新的重要壁壘之一。

智源推出的天秤(FlagEval)大模型評(píng)測(cè)體系及開放平臺(tái),旨在建立一站式的科學(xué)、公正、開放的基礎(chǔ)模型評(píng)測(cè)基準(zhǔn)、方法及工具集,協(xié)助研究人員全方位評(píng)估基礎(chǔ)模型及訓(xùn)練算法的性能,同時(shí)探索利用AI方法實(shí)現(xiàn)對(duì)主觀評(píng)測(cè)的輔助,大幅提升評(píng)測(cè)的效率和客觀性。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

FlagEval創(chuàng)新地構(gòu)建了“能力-任務(wù)-指標(biāo)”三維評(píng)測(cè)框架,細(xì)粒度刻畫基礎(chǔ)模型的認(rèn)知能力邊界,并可視化呈現(xiàn)評(píng)測(cè)結(jié)果。

目前該評(píng)測(cè)體系已覆蓋語言、多模態(tài)兩大領(lǐng)域的大模型評(píng)測(cè),推出開源多語言文圖大模型評(píng)測(cè)工具mCLIP-Eval、開源文圖生成評(píng)測(cè)工具ImageEval,后續(xù)將覆蓋視覺、語音評(píng)測(cè)場(chǎng)景。

FlagEval開放評(píng)測(cè)平臺(tái)現(xiàn)已開放(http://flageval.baai.ac.cn),打造自動(dòng)化評(píng)測(cè)與自適應(yīng)評(píng)測(cè)機(jī)制,并支持英偉達(dá)、寒武紀(jì)、昆侖芯、昇騰-鵬城云腦等多種芯片評(píng)測(cè),以及PyTorch、MindSpore等多種深度學(xué)習(xí)框架。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

開源評(píng)測(cè)工具:http://github.com/FlagOpen/FlagEval

林詠華期待更多業(yè)界同仁參與其中,通過更多的學(xué)科交叉,持續(xù)豐富大模型評(píng)測(cè)集。

作為“科技部2030”旗艦項(xiàng)目重要課題,天秤FlagEval評(píng)測(cè)體系正與北京大學(xué)、北京航空航天大學(xué)、北京師范大學(xué)、北京郵電大學(xué)、閩江學(xué)院、南開大學(xué)、中國電子技術(shù)標(biāo)準(zhǔn)化研究院、中國科學(xué)院自動(dòng)化研究所等合作單位共建(按首字母排序),定期發(fā)布權(quán)威評(píng)測(cè)榜單

FlagEval是FlagOpen飛智大模型技術(shù)開源體系的重要組成之一。

其中,F(xiàn)lagAI新增集成了悟道·天鷹(Aquila)語言大模型系列、18種語言多模態(tài)文生圖生成模型AltCLIP-m18、AltDiffusion-m18等智源開源模型,支持并行加速技術(shù),并集成了高效推理技術(shù)LoRA和BMinf。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

FlagPerf建立了評(píng)測(cè)Case的各項(xiàng)標(biāo)準(zhǔn)、支持容器內(nèi)評(píng)測(cè)模式;新增國產(chǎn)芯片的評(píng)測(cè)系列,包括昆侖芯、天數(shù)智芯等;評(píng)測(cè)系列從語言大模型擴(kuò)展到多種主流視覺模型。

FlagEval包含多種開源多模態(tài)模型評(píng)測(cè)工具和FlagEval(天秤)大模型評(píng)測(cè)平臺(tái)。FlagData包含數(shù)據(jù)分析工具、數(shù)據(jù)清洗工具、微調(diào)數(shù)據(jù)標(biāo)注工具等。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

FlagOpen開放平臺(tái):https://flagopen.baai.ac.cn

二、“悟道·視界”:6大視覺智能成果,點(diǎn)亮通用視覺曙光

除了發(fā)布開源語言大模型及評(píng)測(cè)體系外,智源研究院還一連發(fā)布了“悟道·視界”視覺大模型系列的6項(xiàng)先進(jìn)技術(shù)成果。

據(jù)黃鐵軍分享,從技術(shù)路線而言,通用視覺模型與語言模型的方法論類似,但視覺涌現(xiàn)與語言涌現(xiàn)的形式有所差別。傳統(tǒng)視覺模型屬于判別式模型,通用視覺模型則更看重對(duì)未知事物的通用辨別能力和生成預(yù)測(cè)能力。

“悟道·視界”由悟道3.0的視覺大模型團(tuán)隊(duì)打造,是一套具備通用場(chǎng)景感知和復(fù)雜任務(wù)處理能力的智能視覺和多模態(tài)大模型系列。6項(xiàng)國際領(lǐng)先技術(shù)中,前5個(gè)是基礎(chǔ)模型,最后1個(gè)是應(yīng)用技術(shù)。

1、Emu:在多模態(tài)序列中補(bǔ)全一切的多模態(tài)大模型

Emu是一個(gè)多模態(tài)-to-模態(tài)的大模型,輸入輸出均可為多模態(tài),可以接受和處理不同模態(tài)的數(shù)據(jù),并輸出各類的多模態(tài)數(shù)據(jù)。

基于多模態(tài)上下文學(xué)習(xí)技術(shù)路徑,Emu能從圖文、交錯(cuò)圖文、交錯(cuò)視頻文本等海量多模態(tài)序列中學(xué)習(xí)。訓(xùn)練完成后,Emu能在多模態(tài)序列的上下文中補(bǔ)全一切,也就是可通過多模態(tài)序列做prompting(提示),對(duì)圖像、文本和視頻等多種模態(tài)的數(shù)據(jù)進(jìn)行感知、推理和生成。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

相比其他多模態(tài)模型,Emu能進(jìn)行精準(zhǔn)圖像認(rèn)知,完成少樣本圖文理解,根據(jù)圖片或者視頻進(jìn)行問答和多輪對(duì)話。它也具備文圖生成、圖圖生成、多模態(tài)上下文生成等生成能力。

2、EVA:最強(qiáng)十億級(jí)視覺基礎(chǔ)模型

如何讓通用視覺模型兼顧更高效和更簡單?抓住語義學(xué)習(xí)和幾何結(jié)構(gòu)學(xué)習(xí)這兩個(gè)關(guān)鍵點(diǎn),基本可以解決絕大部分的視覺任務(wù)。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

智源的十億級(jí)視覺基礎(chǔ)模型EVA便將最強(qiáng)語義學(xué)習(xí)(CLIP)與最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)(MIM)結(jié)合,再將標(biāo)準(zhǔn)的ViT模型擴(kuò)大規(guī)模至10億參數(shù)進(jìn)行訓(xùn)練,一舉在ImageNet分類、COCO檢測(cè)分割、Kinetics視頻分類等廣泛的視覺感知任務(wù)中取得當(dāng)時(shí)最強(qiáng)性能。

論文地址:https://arxiv.org/abs/2211.07636
代碼地址:https://github.com/baaivision/EVA

3、EVA-CLIP:性能最強(qiáng)開源CLIP模型

EVA-CLIP基于通用視覺模型EVA開發(fā),相關(guān)工作入選2023 CVPR Highlight論文。 EVA極大地穩(wěn)定了巨型CLIP的訓(xùn)練和優(yōu)化過程,僅需使用FP16混合精度,就能幫助訓(xùn)練得到當(dāng)前最強(qiáng)且最大的開源CLIP模型。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

此前多模態(tài)預(yù)訓(xùn)練模型CLIP作為零樣本學(xué)習(xí)基礎(chǔ)模型,廣受業(yè)界認(rèn)可。智源視覺團(tuán)隊(duì)在今年年初發(fā)布的EVA-CLIP 5B版本,創(chuàng)造了零樣本學(xué)習(xí)性能新高度,超越了此前最強(qiáng)的Open CLIP模型,在ImageNet1K零樣本top1達(dá)到最高的82.0%準(zhǔn)確率。此外,智源去年發(fā)布的EVA-CLIP 1B版本,今年才被Meta發(fā)布的DINOv2模型追平ImageNet kNN準(zhǔn)確率指標(biāo)。

論文地址:https://arxiv.org/abs/2303.15389
代碼地址:https://github.com/baaivision/EVA/tree/master/EVA-CLIP

4、Painter:首創(chuàng)“上下文圖像學(xué)習(xí)”技術(shù)路徑的通用視覺模型

研究者相信,表達(dá)圖像信息最好的方式就是圖像,圖像理解圖像、圖像解釋圖像、圖像輸出圖像,可以避免圖像-語言翻譯過程中產(chǎn)生的信息誤差和成本消耗。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

智源將NLP中的上下文學(xué)習(xí)概念引入視覺模型,打造了將“以視覺為中心”作為建模核心思想的通用視覺模型Painter。Painter把圖像作為輸入和輸出,從而獲得了上下文視覺信息,完成不同的視覺任務(wù)。該模型目前可完成7種主流視覺任務(wù),已在深度估計(jì)、語義分割等核心視覺任務(wù)中,相比同類模型有11%~25%的性能提升。

論文地址:https://arxiv.org/abs/2212.02499
代碼地址:https://github.com/baaivision/Painter

5、視界通用分割模型:一通百通,分割一切

從影像中分割出各種各樣的對(duì)象,是視覺智能的關(guān)鍵里程碑。今年年初,智源研發(fā)的首個(gè)利用視覺提示(prompt)完成任意分割任務(wù)的“視界通用分割模型”,與Meta的SAM模型同時(shí)發(fā)布,點(diǎn)亮了通用視覺GPT曙光。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

“視界通用分割模型”具有強(qiáng)大的視覺上下文推理能力:給出一個(gè)或幾個(gè)示例圖像和意圖掩碼(視覺提示prompt),模型就能理解用戶意圖,“有樣學(xué)樣”地完成類似分割任務(wù)。用戶在畫面上標(biāo)注識(shí)別一類物體,即可批量化識(shí)別分割同類物體。此外,該模型還具備強(qiáng)大的通用能力、靈活推理能力和自動(dòng)視頻分割與追蹤能力。

論文地址:https://arxiv.org/abs/2304.03284
代碼地址:https://github.com/baaivision/Painter
Demo地址:https://huggingface.co/spaces/BAAI/SegGPT

6、vid2vid-zero:首個(gè)零樣本視頻編輯方法

現(xiàn)有文本驅(qū)動(dòng)的AIGC視頻編輯方法嚴(yán)重依賴于大量“文本-視頻”數(shù)據(jù)上調(diào)整預(yù)訓(xùn)練好的視頻擴(kuò)散模型,需要龐大的計(jì)算資源,帶來了高昂的人工數(shù)據(jù)標(biāo)注成本和計(jì)算成本。

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

智源研究院提出的零樣本視頻編輯方法vid2vid-zero,首次在無需額外視頻訓(xùn)練的情況下,利用注意力機(jī)制動(dòng)態(tài)運(yùn)算的特點(diǎn),結(jié)合現(xiàn)有圖像擴(kuò)散模型,實(shí)現(xiàn)可指定屬性的視頻編輯。只需上傳視頻,輸入一串編輯文本提示,就可以坐等AI創(chuàng)作出創(chuàng)意視頻。

論文鏈接:https://arxiv.org/pdf/2303.17599.pdf
代碼地址:https://github.com/baaivision/vid2vid-zero
Demo地址:https://http://huggingface.co/spaces/BAAI/vid2vid-zero

“悟道·視界”聚焦視覺和多模態(tài)上下文學(xué)習(xí),創(chuàng)新了視覺和多模態(tài)領(lǐng)域的Prompt工程,取得了零樣本學(xué)習(xí)性能的新突破。未來其應(yīng)用可帶給自動(dòng)駕駛、智能機(jī)器人等領(lǐng)域更多可能性。還有多語言AIGC文圖生成,通用智能體學(xué)習(xí)等多模態(tài)領(lǐng)域,也將公布相關(guān)代碼。

三、通向AGI的三大路線:大模型、生命智能、AI4Science

據(jù)黃鐵軍分享,在以智力服務(wù)為特征的時(shí)代,重要的不是模型本身比誰大比誰強(qiáng),而是訓(xùn)練大模型的算法和技術(shù)本身是否夠先進(jìn)、訓(xùn)練成本是否能夠有效降低、模型智能的能力是否可信可控。智源正將許多產(chǎn)學(xué)研單位的智慧匯聚,以開放方式進(jìn)行協(xié)作,為大模型技術(shù)體系的發(fā)展添磚加瓦。

他告訴智東西,作為一家非營利機(jī)構(gòu),智源研究院立足科研,會(huì)基于自研通用視覺模型和語言模型做一些Demo演示。目標(biāo)是以開源開放的方式提供技術(shù),促進(jìn)技術(shù)發(fā)展與迭代。

除了大模型技術(shù)路線外,智源也在堅(jiān)持研究生命智能AI4Science

智源連甩多個(gè)開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評(píng)測(cè)體系上線

黃鐵軍說,這三條路線相互作用和影響,對(duì)于未來的通用人工智能(AGI)都是必要的。今天,大模型方向展現(xiàn)出很強(qiáng)的能力,主要得益于海量高質(zhì)量數(shù)據(jù),用擁有巨大參數(shù)的神經(jīng)網(wǎng)絡(luò)表達(dá)復(fù)雜數(shù)據(jù)背后規(guī)律,是一種比較直接的方式。

大模型方向有其優(yōu)勢(shì),但并沒有解決掉通用人工智能的所有問題。比如大模型智能的發(fā)生機(jī)理與人類生物大腦智能背后的信號(hào)機(jī)理差距很大,如果想做到類似于人腦的智能涌現(xiàn),還要探究類腦方向與具身智能。

他談道,既然大模型已經(jīng)證明涌現(xiàn)能力行之有效,這方面的投入會(huì)加大很多,速度也會(huì)加快,很大概率大模型方向上接近通用人工智能速度會(huì)更快。隨著模型規(guī)模擴(kuò)大,對(duì)算力、數(shù)據(jù)的要求越來越高,必然會(huì)帶來成本上和實(shí)現(xiàn)代價(jià)上的一些需求快速增加。這是次生問題。

“為實(shí)現(xiàn)一個(gè)更偉大目標(biāo),付出資源成本更高,也是自然的事情。我認(rèn)為大模型規(guī)模上現(xiàn)在遠(yuǎn)遠(yuǎn)沒有看到天花板?!秉S鐵軍說。

結(jié)語:群英會(huì)聚大模型研討高地,百場(chǎng)精彩討論干貨滿載

算上今天,智源大會(huì)已經(jīng)連續(xù)舉辦了五屆。這五年來,憑借匯聚人工智能領(lǐng)域最關(guān)鍵的人物、最重要的機(jī)構(gòu)、最核心的話題與最專業(yè)的觀眾,智源大會(huì)的口碑持續(xù)發(fā)酵,不僅是業(yè)界全面關(guān)注度最高的人工智能盛會(huì)之一,也早已成為北京加快建設(shè)人工智能創(chuàng)新策源地的一張名片。

智源大會(huì)的主辦方智源研究院,是中國最早進(jìn)行大模型研究的科研機(jī)構(gòu),從率先開啟大模型立項(xiàng)探索,率先組建大模型研究團(tuán)隊(duì),率先預(yù)見“AI大模型時(shí)代到來”,率先發(fā)布連創(chuàng)“中國首個(gè)+世界最大”記錄的“悟道”大模型項(xiàng)目,到今天,智源研究院依然走著最前沿,率先倡導(dǎo)大模型開源開放,并帶頭建設(shè)大模型測(cè)評(píng)旗艦項(xiàng)目,為大模型行業(yè)發(fā)展與生態(tài)擴(kuò)張注入源源不斷的動(dòng)能。

大模型引爆人工智能概念,離不開算法的進(jìn)步。本屆智源大會(huì)邀請(qǐng)了過去一年領(lǐng)域突破的重要工作完成者,包括GPT-4/ChatGPT、PaLM-E、OPT、LLaMA、Codex、Whisper、Sparrow、NLLB、T5、Flan-T5、LAION-5B、RoBERTa等重要工作作者出席,親身講解研究成果。

滿滿兩天將覆蓋百場(chǎng)精彩討論,包括明天,在星光熠熠的AI安全與對(duì)齊論壇期間,智源研究院理事長張宏江與OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman,加州伯克利分校教授與圖靈獎(jiǎng)得主、中國科學(xué)院院士姚期智,將分別展開對(duì)談交鋒。圖靈獎(jiǎng)得主、“深度學(xué)習(xí)之父”Geoffrey Hinton也將發(fā)表重磅主題演講,非常令人期待。