智東西(公眾號:zhidxcom
作者?|?香草
編輯?|?李水青

智東西4月11日報道,昨日,“歐洲版OpenAI”Mistral AI又一次悄然秀肌肉,甩出全新MoE(專家混合)大模型Mixtral 8x22B磁力鏈接,模型參數(shù)規(guī)模高達1760億,僅次于馬斯克的Grok-1,成為市面上參數(shù)規(guī)模第二大的開源模型。

法國版OpenAI殺瘋了!1760億參數(shù)MoE登開源榜首,3張A100顯卡可跑,楊立昆轉(zhuǎn)發(fā)“逆天”評論

▲Mistral AI發(fā)布Mixtral 8x22B

Mixtral 8x22B由8個專家模型構(gòu)成,每個模型的參數(shù)規(guī)模220億,模型文件大小約為262GB。測評成績方面,Mixtral 8x22B在MMLU(大規(guī)模多任務(wù)語言理解)登頂開源模型榜首,Hellaswag、TruthfulQA、GSM8K等多項測評成績超越Llama 2 70B、GPT-3.5以及Claude 3 Sonnet。

這是近日繼OpenAI的視覺版GPT-4 Turbo和谷歌的Gemini 1.5 Pro全面更新后,大模型廠商們發(fā)布的第三個重要型號。此外,Meta還暗示將在下個月發(fā)布Llama 3。

一、問鼎MMLU開源榜首,3張A100顯卡可跑

Mixtral 8x22B包含8個專家模型,每個專家模型的參數(shù)規(guī)模從上一代的70億飆升至220億,序列長度為65536。

在放出磁力鏈接后不久,Mixtral 8x22B便上架了開源社區(qū)Hugging Face,模型文件大小約為262GB,用戶可以進一步訓(xùn)練和部署。

性能方面,其在MMLU測評榜登頂開源模型榜首,多項測評成績超越Llama 2 70B、GPT-3.5以及Claude 3 Sonnet。

法國版OpenAI殺瘋了!1760億參數(shù)MoE登開源榜首,3張A100顯卡可跑,楊立昆轉(zhuǎn)發(fā)“逆天”評論

▲Mixtral 8x22B測評成績

雖然發(fā)布方式低調(diào),但Mixtral 8x22B再一次引爆了開源社區(qū)。AI搜索平臺Perplexity Labs和開源平臺Together AI都迅速提供了該模型的支持。

AI科學(xué)家賈揚清稱,通過合理的量化,Mixtral 8x22B可在4個A100/H100顯卡上運行,嚴(yán)格來說,其實3張A100顯卡就夠了。

法國版OpenAI殺瘋了!1760億參數(shù)MoE登開源榜首,3張A100顯卡可跑,楊立昆轉(zhuǎn)發(fā)“逆天”評論

▲賈揚清稱3張A100顯卡可以跑Mixtral 8x22B

蘋果機器學(xué)習(xí)研究員Awni Hannun稱,Mixtral 8x22B模型在蘋果機器學(xué)習(xí)框架MLX上使用M2 Ultra芯片運行良好,并發(fā)布了MLX社區(qū)中的4位量化模型。

法國版OpenAI殺瘋了!1760億參數(shù)MoE登開源榜首,3張A100顯卡可跑,楊立昆轉(zhuǎn)發(fā)“逆天”評論

▲蘋果機器學(xué)習(xí)框架MLX運行Mixtral 8x22B

二、楊立昆轉(zhuǎn)發(fā),法國AI生態(tài)如此“逆天”

現(xiàn)如今,法國巴黎的AI生態(tài)已是“Next Level”。出身巴黎的Meta首席AI科學(xué)家楊立昆轉(zhuǎn)發(fā)了一篇講述巴黎是如何成為一個主要AI中心的帖文,故事可以從10多年前說起。

法國版OpenAI殺瘋了!1760億參數(shù)MoE登開源榜首,3張A100顯卡可跑,楊立昆轉(zhuǎn)發(fā)“逆天”評論

▲楊立昆轉(zhuǎn)發(fā)Damien Henry帖文

2013年,Xavier Niel創(chuàng)辦了計算機培訓(xùn)學(xué)校Ecole 42,這所不同尋常的學(xué)校接收來自不同背景的學(xué)生,以點對點學(xué)習(xí)的方式培訓(xùn)編程。

2015年,楊立昆創(chuàng)辦了FAIR Paris,也就是FacebookAI研究院。他被公認(rèn)為深度學(xué)習(xí)的三大發(fā)明者之一,另外兩位是加拿大人。

FAIR向法國人才發(fā)出了一個信號:他們不必離開法國就可以從事深度學(xué)習(xí)研究;也向美國其他科技巨頭發(fā)出信號:在法國進行科學(xué)研究是可行的。之后在2018年,谷歌DeepMind也在巴黎開設(shè)了一家實驗室。

2016年,第一屆VivaTech舉辦,它成為歐盟首屈一指的初創(chuàng)企業(yè)和投資者盛會,吸引了超過2400家初創(chuàng)企業(yè)和超過2000名投資者。

同年,開源社區(qū)Hugging Face在法國成立。也許當(dāng)時的他們不會知道,其Transformer庫不久之后就會成為行業(yè)標(biāo)準(zhǔn)。

2017年,Xavier Niel成立了STATION F,這是世界上最大的創(chuàng)業(yè)園區(qū)。在Roxanne Varza的帶領(lǐng)下,它成為了法國的科技中心。值得一提的是,Hugging Face是首批加入STATION F計劃的創(chuàng)企之一,也是該計劃誕生的首個獨角獸。

法國版OpenAI殺瘋了!1760億參數(shù)MoE登開源榜首,3張A100顯卡可跑,楊立昆轉(zhuǎn)發(fā)“逆天”評論

▲STATION F創(chuàng)業(yè)園區(qū)

2018年,楊立昆獲得圖靈獎,成為AI領(lǐng)域最具影響力的人物之一。

法國版OpenAI殺瘋了!1760億參數(shù)MoE登開源榜首,3張A100顯卡可跑,楊立昆轉(zhuǎn)發(fā)“逆天”評論

▲楊立昆

在此期間,這篇帖文的作者Damien Henry在巴黎組建了Google Arts&Culture團隊,專注于AI和圖像。他還和其他兩位聯(lián)創(chuàng)共同創(chuàng)建了AI視覺生成工具Clipdrop,后被Stability AI收購。

2019年,巴黎已經(jīng)在世界AI地圖上占據(jù)一席之地,但并不像如今一樣成為主流。

但在2020年,疫情席卷了全球,遠(yuǎn)程辦公成為常態(tài)。這讓科技界開始轉(zhuǎn)移陣地:世界上有這么多地方可供選擇,我為什么非要在硅谷租房?此外,美國人開始逐漸把科技發(fā)展視為一種威脅,而大多數(shù)科技沒那么發(fā)達的國家則恰恰相反。

2021年,Hugging Face迅速增長,成為如今我們熟知的最強開源AI平臺。深度科技在全球范圍內(nèi)加速發(fā)展,而在巴黎尤為迅速。

2023年Mistral AI成立,并在幾個月內(nèi)就飛速成長為OpenAI的最大勁敵之一。他們發(fā)布模型的方式低調(diào)又“激進”,僅憑一條沒有任何背景信息磁力鏈接就獲得超400萬次瀏覽量,讓昂貴的發(fā)布視頻變得過時。

同年,歐洲首個獨立AI研究實驗室kyutai成立,Scaleway、Rodolphe Saade等宣布進入計算領(lǐng)域,要為歐洲帶來更多GPU。計算機視覺國際頂級會議ICCV也選擇在巴黎舉辦,紅衫資本等頂級投資機構(gòu)也越來越多地將目光放到法國AI創(chuàng)企。

結(jié)語:開源社區(qū)再添一員巨匠

隨著Mixtral 8x22B模型在開源社區(qū)中引起轟動,我們見證了開源大模型的迅猛發(fā)展和歐洲AI生態(tài)的崛起。這一成就不僅展示了Mistral AI在大模型領(lǐng)域的強大實力,也反映了法國乃至整個歐洲在AI研究和創(chuàng)新方面的深厚潛力。

從Ecole 42、FAIR Paris的成立,再到Hugging Face、STATION F的興起,巴黎已經(jīng)成為全球AI創(chuàng)新的重要中心。未來,我們期待看到更多硅谷之外的城市在全球AI舞臺上扮演重要角色,推動科技前沿創(chuàng)新。