智東西(公眾號(hào):zhidxcom)
作者 | ?ZeR0
編輯 | ?漠影

智東西6月16日?qǐng)?bào)道,在今日舉行的人工智能框架生態(tài)峰會(huì)2023上,中國(guó)科學(xué)院自動(dòng)化研究所所長(zhǎng)徐波正式發(fā)布紫東太初2.0全模態(tài)大模型。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

相比以前的大模型,紫東太初2.0新增了視頻、傳感信號(hào)、3D點(diǎn)云等模態(tài),擁有了更強(qiáng)的認(rèn)知、理解、創(chuàng)作能力。

它不僅有和ChatGPT類似的多輪問(wèn)答、文本創(chuàng)作能力,還實(shí)現(xiàn)了全模態(tài)輸入,支持視頻、圖像、音樂(lè)、3D信號(hào)的理解,并能夠?qū)崿F(xiàn)圖文音搜索、圖像生成、音樂(lè)生成信號(hào)分析等功能。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

智東西第一時(shí)間對(duì)紫東太初2.0的音樂(lè)能力、信號(hào)類能力、視頻能力、跨模態(tài)能力、圖像能力、語(yǔ)言能力等進(jìn)行體驗(yàn)。

一、五大能力詳解,從生成音樂(lè)、看懂視頻到推理分析

1、音樂(lè)及信號(hào)類能力:生成、識(shí)別、多模問(wèn)答

紫東太初2.0可以通過(guò)給定的文本提示,可控生成高保真的音樂(lè),并支持即興創(chuàng)作多種風(fēng)格類型和多種樂(lè)器演奏的音樂(lè)。

648c16a582594_648c16a58254b_屏幕錄制2023-06-16-13.11.17

比如,上傳一段音樂(lè)文件,讓紫東太初2.0識(shí)別這個(gè)音樂(lè)是什么,它能識(shí)別出這是貝多芬的交響曲,并分享了這段音樂(lè)表達(dá)了怎樣的感情。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

你還可以詢問(wèn)這段音樂(lè)是用什么樂(lè)器演奏的,讓紫東太初2.0根據(jù)這段音樂(lè)作詩(shī),或者追問(wèn)貝多芬的生平是怎樣的。

紫東太初2.0也支持雷達(dá)信號(hào)鑒別與知識(shí)交互,可借助模型快速掌握信號(hào)基本來(lái)源及參數(shù)等。

上傳一段信號(hào)后,你可以向它詢問(wèn)這段信號(hào)的相關(guān)信息。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

2、視頻能力:理解、描述、搜索

視頻能力方面,紫東太初2.0能基于用戶上傳的視頻素材,準(zhǔn)確理解并回答視頻識(shí)別、視頻描述類問(wèn)題,同時(shí)支持上下文信息理解和多輪問(wèn)答。

比如,上傳一段唱歌跳舞的視頻,問(wèn)紫東太初2.0這段視頻描述了什么、對(duì)視頻中音樂(lè)的感受、是否認(rèn)可等問(wèn)題。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

此外,紫東太初2.0擁有海量的高質(zhì)視頻素材庫(kù),具備視頻素材檢索能力。

比如讓它找一個(gè)踢足球的視頻。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

你還可以針對(duì)視頻內(nèi)容進(jìn)一步發(fā)問(wèn),讓紫東太初2.0結(jié)合動(dòng)作和音樂(lè)分析視頻,或是根據(jù)視頻內(nèi)容預(yù)測(cè)后面可能發(fā)生什么事。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

3、跨模態(tài)能力:“圖像+音頻+視頻”理解與分析

紫東太初2.0能結(jié)合多個(gè)圖像、音頻、視頻文件,進(jìn)行綜合理解與創(chuàng)作。

上傳兩個(gè)視頻,問(wèn)這兩個(gè)視頻的共同特點(diǎn)是什么?對(duì)此,紫東太初2.0能夠結(jié)合視頻的畫(huà)面和聲音,分析出共通之處以及各自的差異點(diǎn)。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

另一個(gè)例子是圖像+音頻。

上傳一張圖書(shū)館的圖片和一段鼓掌聲音頻,問(wèn)這段音頻有沒(méi)有可能出現(xiàn)在圖片里的場(chǎng)景中?

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

紫東太初2.0給出答案:不太可能,原因是圖片中的場(chǎng)景沒(méi)有慶?;驓g迎的氛圍。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

或者,上傳一張足球場(chǎng)的圖片+一段鼓掌聲音頻,讓紫東太初2.0結(jié)合圖片和音頻,分析一下場(chǎng)景的氛圍。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

通過(guò)綜合理解圖像、音頻、視頻信息,紫東太初2.0“拼出”一個(gè)完整的信息描述,或者將這些內(nèi)容串聯(lián)形成一段流暢的故事。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

4、圖像與3D場(chǎng)景能力:描述、目標(biāo)檢測(cè)、檢索、生成

紫東太初2.0能基于用戶上傳的圖片素材,準(zhǔn)確理解并回答圖片識(shí)別類問(wèn)題,包括識(shí)別圖像主體、背景、動(dòng)作、顏色等等,同時(shí)支持上下文信息理解和多輪問(wèn)答。

比如問(wèn)“圖里有幾只動(dòng)物”、“小狗和小貓?jiān)谧鍪裁础保蠔|太初2.0給出了具體的描述。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

你還可以針對(duì)這張圖片,詢問(wèn)更多細(xì)節(jié),比如小動(dòng)物的毛色、它們?cè)谑裁吹胤酵妗?/p>

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

上傳風(fēng)車的圖片,問(wèn)“這個(gè)裝置的作用是什么”,紫東太初2.0給的回答包括“風(fēng)力發(fā)電站”。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

接著追問(wèn)“為什么要在圖中位置建設(shè)這樣的裝置”,它馬上給出回答:“為了讓它更加接近自然環(huán)境,以便更好地利用風(fēng)能?!?/p>

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

此外,紫東太初2.0具備基于點(diǎn)云數(shù)據(jù)的3D場(chǎng)景理解和物體感知能力。你可以讓它描述從這張三維圖里看到了什么信息。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

不過(guò)在理解梗圖方面,紫東太初2.0的能力還沒(méi)有開(kāi)發(fā)出來(lái),并不能弄明白下圖好笑在哪兒。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

除了搜視頻,紫東太初2.0也能被用于搜圖。比如讓它生成一張熊貓的圖片。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

在生成圖像方面,紫東太初2.0可以生成指定風(fēng)格的圖。比如我要求“用中國(guó)畫(huà)風(fēng)格畫(huà)一只慵懶的貓”,紫東太初2.0立刻畫(huà)出了一張臥著的虎皮貓。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

5、語(yǔ)言與編程:?jiǎn)柎?、?chuàng)作、查錯(cuò)、寫(xiě)代碼

在語(yǔ)言能力方面,和多數(shù)大型語(yǔ)言模型一樣,紫東太初2.0支持中文問(wèn)答、邏輯推理、文本摘要、文本續(xù)寫(xiě)、文本創(chuàng)作、標(biāo)題生成、語(yǔ)法分析、機(jī)器翻譯等等。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

它能準(zhǔn)確理解用戶輸入的問(wèn)題語(yǔ)境,并能做出準(zhǔn)確的知識(shí)性問(wèn)答,包括生活常識(shí)、工作技能、醫(yī)學(xué)知識(shí)、歷史人文等知識(shí)領(lǐng)域。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

給紫東太初2.0一篇文章,它能快速理解文章的核心觀點(diǎn),根據(jù)長(zhǎng)文本提取簡(jiǎn)潔而準(zhǔn)確的摘要。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

它也能寫(xiě)一個(gè)擁有出人意料結(jié)局的推理小說(shuō)。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

寫(xiě)個(gè)快速排序代碼,同樣不在話下。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

綜合來(lái)看,紫東太初2.0在圖文音多模態(tài)能力的基礎(chǔ)之上,增加了對(duì)視頻、3D場(chǎng)景和信號(hào)等模態(tài)的理解,用更多模態(tài)信息來(lái)彌補(bǔ)單模態(tài)的局限性,更好地增強(qiáng)了對(duì)多種模態(tài)的綜合理解和認(rèn)知。

二、突破多項(xiàng)多模態(tài)關(guān)鍵技術(shù),完成跨模態(tài)對(duì)齊

徐波說(shuō),中科院早在2008年就開(kāi)始推進(jìn)圖文音的單獨(dú)攻關(guān),2020年1月啟動(dòng)多模態(tài)聯(lián)合攻關(guān),從2021年1月做出百億模型到2021年9月發(fā)布全球首個(gè)千億參數(shù)圖文音三模態(tài)大模型紫東太初1.0,再到推出紫東太初2.0,以昇騰AI硬件及昇思MindSpore AI框架為基礎(chǔ),依托武漢人工智能計(jì)算中心算力支持,利用預(yù)訓(xùn)練+微調(diào)技術(shù),在大的神經(jīng)網(wǎng)絡(luò)上,把多個(gè)場(chǎng)景的知識(shí)和數(shù)據(jù)都吸納到一個(gè)模型上。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

但物理世界的信息種類遠(yuǎn)多于圖文音,有大量結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),包括溫度、深度、壓力信號(hào)、3D超聲波指紋、脈搏波、降水量、人體紅外、3D激光等等諸多形式。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

基于這樣的認(rèn)識(shí),面向數(shù)字物聯(lián)時(shí)代,紫東太初2.0推出實(shí)現(xiàn)了能接入非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化等數(shù)據(jù)的全模態(tài)大模型開(kāi)放系統(tǒng)架構(gòu)。

面對(duì)全模態(tài)數(shù)據(jù),紫東太初2.0率先實(shí)現(xiàn)了認(rèn)知增強(qiáng)的多模態(tài)關(guān)聯(lián),在全模態(tài)理解能力、生成能力、對(duì)齊能力上實(shí)現(xiàn)了躍升。

研究團(tuán)隊(duì)重點(diǎn)研究突破了多模態(tài)分組認(rèn)知編碼、全模態(tài)認(rèn)知對(duì)齊和融合、多模態(tài)分組認(rèn)知解碼等關(guān)鍵技術(shù),使多模態(tài)關(guān)聯(lián)的認(rèn)知能力大幅提高。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

通過(guò)完成音樂(lè)、圖像、視頻等數(shù)據(jù)之間的跨模態(tài)對(duì)齊,紫東太初2.0可處理音樂(lè)視頻分析、三維導(dǎo)航等多模態(tài)關(guān)聯(lián)應(yīng)用應(yīng)用需求,并可實(shí)現(xiàn)音樂(lè)、視頻等多模態(tài)內(nèi)容生成。

由此,紫東太初2.0打通了感知、認(rèn)知乃至決策的交互屏障,具有全模態(tài)能力的涌現(xiàn),使得人工智能進(jìn)一步感知、認(rèn)知世界,從而延伸出更加強(qiáng)大的通用能力。

三、落地進(jìn)展:助攻顱內(nèi)手術(shù),研判違規(guī)行為,溯源敏感信息

徐波說(shuō),紫東太初底座大模型正賦能千行百業(yè),包括布匹紡織及缺陷檢測(cè)、文旅導(dǎo)游、柔性手術(shù)機(jī)器人、AI手語(yǔ)老師等。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

例如在醫(yī)療場(chǎng)景,基于紫東太初打造的顱內(nèi)手術(shù)多模態(tài)智能助手可實(shí)現(xiàn)不同模態(tài)的高效協(xié)同與轉(zhuǎn)換,尤其是視覺(jué)、觸覺(jué)的跨模態(tài)融合,解決了機(jī)器人輔助手術(shù)中觸覺(jué)缺失的國(guó)際性難題。

協(xié)和醫(yī)院用到紫東太初2.0在全模態(tài)方面的推理功能,去嘗試在醫(yī)療診斷方面做一些有挑戰(zhàn)性的工作,尤其是在心、腦、腎三個(gè)罕見(jiàn)病中,利用多種醫(yī)療模態(tài)和患者病例特點(diǎn),生成擬診討論,在診斷、鑒別診斷和治療計(jì)劃給出一些建議。

在交通場(chǎng)景,以前智能系統(tǒng)更多關(guān)注識(shí)別到比較常見(jiàn)的交通違規(guī)行為,但實(shí)際場(chǎng)景中會(huì)有很多細(xì)碎的違規(guī)行為,比如壓實(shí)線、摩托車不戴頭盔、三輪車違法載人等等。只需輸入對(duì)違規(guī)行為的文字描述,再給1~2張圖片,紫東太初就能實(shí)現(xiàn)對(duì)違規(guī)行為認(rèn)知級(jí)別的研判。

在互聯(lián)網(wǎng)短視頻場(chǎng)景中,有些短視頻的標(biāo)題和簡(jiǎn)介文本沒(méi)有問(wèn)題,但視頻內(nèi)容包含敏感信息。利用多模態(tài)融合感知技術(shù),可以對(duì)視頻進(jìn)行溯源,及時(shí)發(fā)現(xiàn)風(fēng)險(xiǎn)內(nèi)容。

在大模型的基礎(chǔ)上,中科院也研發(fā)了紫東太初開(kāi)放服務(wù)平臺(tái),以惠及更多用戶。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

結(jié)語(yǔ):邁向通用人工智能的三條路徑

徐波說(shuō),大模型成為人工智能發(fā)展的里程碑和分水嶺,以ChatGPT為代表的“大算力+大數(shù)據(jù)+大模型”標(biāo)志著通用人工智能時(shí)代的來(lái)臨,大模型將實(shí)現(xiàn)對(duì)勞動(dòng)力、資本等生產(chǎn)要素的智能替代和功能倍增,促進(jìn)全要素生產(chǎn)率的提高。

人類的學(xué)習(xí)和交互過(guò)程中充滿了多模態(tài)信息,包括自然語(yǔ)言、視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)/味覺(jué)、生理信號(hào)等等。以嬰兒早期發(fā)育為例,它通過(guò)多種模態(tài)信息可以很容易地感知和學(xué)習(xí)世界,基于這一認(rèn)識(shí),紫東太初大模型從一開(kāi)始走的就是多模態(tài)技術(shù)路線。

據(jù)徐波分享,通過(guò)可自主進(jìn)化通用人工智能有三條路徑:類腦智能、信息智能、博弈智能。

中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)

他認(rèn)為,目前全模態(tài)的信息智能走得更快,但它一定會(huì)吸納類腦智能在極低功耗及演化機(jī)制方面的優(yōu)勢(shì),也一定會(huì)吸納博弈智能與環(huán)境交互產(chǎn)生自適應(yīng)能力的機(jī)制,融合起來(lái),才是更強(qiáng)的通用人工智能。