智東西(公眾號:zhidxcom)
編譯 | 陳駿達(dá)
編輯 | 李水青

微軟AI首批自研大模型來了!

智東西8月29日報道,今天,微軟旗下的AI研究機(jī)構(gòu)微軟AI(Mircosoft AI,簡稱MAI)推出了首批兩款全自研AI模型,分別為MAI首款端到端訓(xùn)練的基礎(chǔ)模型MAI-1-preview和首款語音生成模型MAI-Voice-1。

MAI-Voice-1的發(fā)布時機(jī)十分湊巧,OpenAI也在今天發(fā)布了一款語音模型。MAI-Voice-1可提供高保真、富有表現(xiàn)力的音頻,已經(jīng)在Copilot Daily和Podcasts上線,還可在Copilot Labs進(jìn)行體驗。

在智東西進(jìn)行的實測中,這一模型展現(xiàn)出超高的定制化程度:用戶不僅可以選擇情緒模式、聲音模板,還至少有40種語體風(fēng)格可供選擇。除了常見的喜悅、憤怒、悲傷、惡心、恐懼等情緒模板,模型還可以扮演機(jī)器人、海盜、吸血鬼、新聞主播、貓頭鷹等不同角色,對同一段文本進(jìn)行自主改寫和演繹,可玩性超強。

每一個角色都有各自獨特的說話方式、口癖等。貓頭鷹會不停地“咕咕”叫,機(jī)器人有一種“活人微死”的感覺,新聞主播則一本正經(jīng)。這些角色都是在統(tǒng)一聲音模板的基礎(chǔ)上呈現(xiàn)的,展現(xiàn)出很強的可塑性。

MAI-Voice-1生成速度也較快,微軟稱能在單款GPU上運行,一秒鐘輸出一分鐘的音頻。不過,這一語音模型暫時不支持中文輸出,輸入中文時會自動轉(zhuǎn)為英文。

微軟AI首個自研模型來了,實測可玩性超強,CEO回應(yīng)與OpenAI隔閡

▲輸入中文文本后,也會自動轉(zhuǎn)為英文

體驗鏈接:

https://copilot.microsoft.com/labs/audio-expression

MAI-1-preview是一款混合專家模型,大約在1.5萬個英偉達(dá)H100 GPU上完成了預(yù)訓(xùn)練和后訓(xùn)練,主打指令遵循和日常問題解答等能力。

這一模型已經(jīng)在LMArena(大模型競技場)內(nèi)進(jìn)行盲測,不過,智東西進(jìn)行了多次“抽卡”,都沒能體驗到這一模型。未來幾周內(nèi),MAI-1-preview將會應(yīng)用于Copilot的部分文本場景,以獲取反饋,優(yōu)化用戶體驗。

新模型發(fā)布之際,微軟AI CEO Mustafa Suleyman還接受了媒體Semafor的深度專訪,向外媒揭秘了自研大模型背后的考量,并正面回應(yīng)了外界普遍存在的關(guān)于微軟與OpenAI關(guān)系漸行漸遠(yuǎn)的看法。

微軟AI首個自研模型來了,實測可玩性超強,CEO回應(yīng)與OpenAI隔閡

▲Mustafa Suleyman在微軟發(fā)布會上(圖源:微軟)

MAI成立于2024年3月,是微軟推進(jìn)Copilot和其他消費者AI產(chǎn)品和研究的專門機(jī)構(gòu)。MAI的CEO Suleyman曾擔(dān)任DeepMind聯(lián)合創(chuàng)始人兼應(yīng)用AI部門負(fù)責(zé)人一職,隨著DeepMind被收購而加入谷歌,并在2022年離職創(chuàng)辦大模型創(chuàng)企Inflection AI。

2024年初,Infection AI與微軟達(dá)成6.5億美元“人才收購”的交易方案,Suleyman與大部分員工加入MAI,14個月后,他們交付了第一款自研模型。

Suleyman稱,AI對微軟的業(yè)務(wù)有根本性的意義,而自研模型計劃早在14個月前便已開始。他們會繼續(xù)與OpenAI等企業(yè)合作,也會使用開源模型,但重要的是確保始終有選擇權(quán)。

MAI-1-preview被Suleyman定義為“人格原材料”,也就是說,模型可以在融入產(chǎn)品的過程中,表現(xiàn)出各種不一樣的人格特點。通過后訓(xùn)練、提示詞工程等方法,未來的大模型可以涌現(xiàn)出“數(shù)百萬種”不同的人格。

微軟擁有打造強大模型所需的資源,正在構(gòu)建世界上最大規(guī)模的GB200、GB300集群,也能順利地招募到人才。但Suleyman強調(diào),規(guī)模固然重要,但效率同樣關(guān)鍵。這意味著要精挑細(xì)選高質(zhì)量訓(xùn)練數(shù)據(jù),讓每一次浮點運算、每一次GPU迭代都物盡其用。

Suleyman還在訪談中分享了對“可解釋性”研究的看法,他認(rèn)為模型本質(zhì)是空心的,可解釋性研究有意義,但并不會揭示所謂意識的本質(zhì)。

以下是對Suleyman最新訪談的完整編譯:

一、OpenAI不是唯一解,模型不是未來核心知識產(chǎn)權(quán)

主持人:我很好奇,為什么微軟需要擁有自己的端到端預(yù)訓(xùn)練基礎(chǔ)模型,而不是使用來自O(shè)penAI等公司的這些其他模型呢?

Mustafa Suleyman:這是一個很好的問題。我們是世界上最大的公司之一,而AI是未來,不僅是技術(shù)的未來,也是我們在未來幾十年中進(jìn)行交易、開展業(yè)務(wù)和創(chuàng)造價值的方式。

因此,這對微軟的業(yè)務(wù)來說具有根本性的意義,必須具備內(nèi)部的專業(yè)能力,去打造世界上最強大的模型。這就是我們在大約14個月前加入微軟后不久,就開始著手自研模型工作的原因。這是一段非常令人興奮的時期。

主持人:這次你們發(fā)布了兩款模型。一個是MAI-1-Preview,據(jù)我理解,這是一個大型語言模型(LLM)。然后還有一個語音模型,它們是兩個獨立的模型嗎?

Mustafa Suleyman:是的,它們是兩個獨立的模型。我們的語音模型表現(xiàn)非常出色,流暢、干凈,而且富有表現(xiàn)力。我們希望確保微軟始終有多種選擇:會繼續(xù)使用第三方開發(fā)者的模型,當(dāng)然也會長期使用OpenAI的模型。同時我們也在用開源模型,并會堅持這樣做。

我認(rèn)為未來的關(guān)鍵知識產(chǎn)權(quán)在于編排器——它將決定在處理某類查詢時該調(diào)用哪個模型。這就是我們12到15個月前確立的方法,也是我們現(xiàn)在所走的路線。

主持人:編排器,是不是意味著它會自動幫用戶選擇最合適的模型?

Mustafa Suleyman:可以把編排器理解為一個路由器,負(fù)責(zé)決定在何時將哪個請求交給哪個模型。

主持人:外界可能會把你們發(fā)布新模型解讀為微軟和OpenAI的關(guān)系出現(xiàn)疏遠(yuǎn),或者說兩者關(guān)系變冷。你怎么看?合作依然緊密嗎?

Mustafa Suleyman:我們的目標(biāo)是進(jìn)一步深化與OpenAI的合作,確保這種關(guān)系能持續(xù)很多年。到目前為止,這種合作是非常成功的——他們從中獲益很多,我們也是。我希望并且有信心我們會繼續(xù)合作,我對此沒有任何擔(dān)憂。

二、集群量級小于業(yè)界頂級規(guī)模,盡量避免在無意義token上浪費算力

主持人:你們公開披露模型是用15000張H100 GPU訓(xùn)練的,這很有意思,因為很多公司通常對此守口如瓶。現(xiàn)在有些公司動用的是10萬張H100 GPU,而且我們已經(jīng)在邁向下一代GPU。你覺得是否可能用更少的GPU達(dá)到同樣的效果?

Mustafa Suleyman:我認(rèn)為我們已經(jīng)證明了這是可能的。如今一個15000張GPU的集群,相比其他動輒使用數(shù)倍規(guī)模的來說,算是小的了。但即便如此,我們依然能獲得世界級的性能。

這是一個超越其重量級的模型,表現(xiàn)不亞于世界上最頂尖的模型。而且這只是開始。一旦模型進(jìn)入生產(chǎn)環(huán)境,開始收集反饋,迭代過程將顯著提升性能。我們的團(tuán)隊已經(jīng)做得非常好,這是一個重要的里程碑,但對我們來說這只是起點。

主持人:那你們有沒有特別針對某些基準(zhǔn)測試?

Mustafa Suleyman:我們在各種主流基準(zhǔn)測試上都進(jìn)行了訓(xùn)練。如今模型必須具備通用性,尤其是文本任務(wù)。同時我們也在逐漸擴(kuò)展到多模態(tài),因為多模態(tài)能讓模型在更多數(shù)據(jù)上學(xué)習(xí),從而表現(xiàn)得更好。我們對未來的發(fā)展持開放態(tài)度。

主持人:那MAI是否已經(jīng)具備你所需要的資源?是不是GPU越多越好?

Mustafa Suleyman:我們剛剛開始在GB200上進(jìn)行訓(xùn)練和測試。微軟正在構(gòu)建世界上最大規(guī)模的GB200、GB300集群之一。它們會為OpenAI提供支持,也會服務(wù)于MAI以及我們的付費推理合作伙伴。

我們有一個為期五年的宏大路線圖,每個季度都會持續(xù)投入。這種趨勢還會繼續(xù)下去。

規(guī)模固然重要,但效率同樣關(guān)鍵。這意味著要精挑細(xì)選高質(zhì)量訓(xùn)練數(shù)據(jù),讓每一次浮點運算、每一次GPU迭代都物盡其用。

如今訓(xùn)練模型的關(guān)鍵在于數(shù)據(jù)選擇——避免在無意義的token上浪費算力。我們的新模型證明了,在極高效率的前提下,也能取得一流的表現(xiàn)。

三、MAI-1-Preview是“原材料”,可打造出大量人格

主持人:那么,使用這些模型的體驗如何?幾周前你寫了一篇文章,討論了“近似有意識”的AI,你提醒我們要避免這種情況。但在Inflection和微軟,你們也強調(diào)過讓模型具備同理心、擁有讓人樂于交流的人格特質(zhì)。這篇文章是不是意味著方向要調(diào)整?

Mustafa Suleyman:不,并不是。首先要認(rèn)識到,人類所具備的很多能力——不論是智商(IQ)、情商(EQ)、行為能力,還是社交智能(SQ)——本質(zhì)上都是高度可訓(xùn)練的。模型也會逐漸獲得這些能力,這是它們的“默認(rèn)”發(fā)展方向。

模型通過模仿學(xué)習(xí),而它們擁有海量的模仿數(shù)據(jù)可用。作為“雕塑家”,我們正在塑造它們的知識、人格特質(zhì)、行為能力和社會智能。

關(guān)鍵問題是:哪些能力是我們希望模型擁有的?哪些是我們不希望它們擁有的?我們?nèi)绾伟l(fā)現(xiàn)潛在的副作用,并以負(fù)責(zé)任的方式進(jìn)行迭代?

我寫這篇文章的目的,就是提醒大家:盲目追求模型模仿人類的全部能力,存在實質(zhì)性的風(fēng)險。我們必須從現(xiàn)在開始認(rèn)真思考,而不是等到問題真正出現(xiàn)才去補救。這也是我職業(yè)生涯的核心目標(biāo)之一——推動大家去思考兩三年后可能會發(fā)生什么,而不是忽視它。

我們需要認(rèn)真面對AI進(jìn)入社會后會帶來的影響。

主持人:雖然你說那一步還沒到,可能要幾年后,但最近新聞里出現(xiàn)了OpenAI和Character.AI遭遇的訴訟,指控聊天機(jī)器人導(dǎo)致自殺。你覺得這是不是你文章中提到的風(fēng)險?這是你擔(dān)心的情況嗎?

Mustafa Suleyman:我認(rèn)為未來會出現(xiàn)各種難以預(yù)料的突發(fā)效應(yīng)。我們能做的,就是提前思考可能性,并在發(fā)現(xiàn)問題時及時公開,認(rèn)真對待,并推動社區(qū)開發(fā)者迅速采取行動。

回顧以往的技術(shù)發(fā)展,很多時候潛在風(fēng)險都會被回避,導(dǎo)致反應(yīng)遲緩。我認(rèn)為這一次我們必須謹(jǐn)慎、主動,同時盡可能快速地推進(jìn)技術(shù)落地,并把好處惠及世界。

主持人:和MAI-1或語音模型交流時,會有特定的感覺嗎?你們的目標(biāo)是什么?是讓人感覺像在和一個善良、有同理心的人對話,但又不至于假裝是人類嗎?你們?nèi)绾伪3诌@種平衡?

Mustafa Suleyman:MAI-1-Preview可以被看作是“人格原材料”。最終的產(chǎn)品——無論是Copilot還是其他應(yīng)用——都會被塑造出特定的人格和對話風(fēng)格。

我預(yù)計社區(qū)和開源開發(fā)者會非常積極地嘗試各種不同的人格。我相信未來會出現(xiàn)數(shù)以百萬計的版本,就像現(xiàn)實中存在數(shù)以百萬計的個人、品牌和組織一樣。

每當(dāng)人類發(fā)明或發(fā)現(xiàn)一種新的交流媒介,都會催生大量變體。這一次也不例外。過去兩三年,大模型大多只有一種或極少數(shù)幾種人格。有些開發(fā)者嘗試過角色設(shè)定或花哨的個性化,但在大型企業(yè)產(chǎn)品中依然很少見。我預(yù)計未來幾年這種情況會發(fā)生根本變化,這正是我在博客中呼吁大家注意的。

主持人:聽起來在預(yù)訓(xùn)練階段幾乎沒法做什么,這些工作只能在后訓(xùn)練里處理。

Mustafa Suleyman:是的。預(yù)訓(xùn)練階段基本無法干預(yù)。后訓(xùn)練,甚至提示工程,都是非常強大的方法,而且操作并不復(fù)雜,很多人都能做到。

因此,我們應(yīng)該預(yù)期未來會出現(xiàn)數(shù)百萬種不同的人格,各自有不同的背景故事和能力。這會讓AI產(chǎn)品與以往的技術(shù)和產(chǎn)品截然不同。

四、大模型是空心的,追求可解釋性是在“擬人化”

主持人:當(dāng)你談到塑造時,有些人稱訓(xùn)練大模型幾乎就像種地一樣,在培育一個模型。在模型變得更有能力,更大之后,為了實現(xiàn)你的上述目標(biāo),是否需要更深入地理解模型呢?比如解決黑箱問題,深入到單個神經(jīng)元中,以實現(xiàn)這個目標(biāo)呢?

Mustafa Suleyman:我覺得是有可能需要的。但同時,我有一種直覺,認(rèn)為對“可解釋性”的執(zhí)著其實是一種擬人化的想法。

它假設(shè)在生成語言、模擬體驗的過程中,語言背后必然有某種“實體”,但在我看來并沒有。事實很清楚:一個簡單的預(yù)測引擎就能以極其深刻的方式模擬出體驗和互動。

但這并不意味著在大型語言模型內(nèi)部真的發(fā)生了某種根本性的“體驗”。它只是幾乎完美地模仿了體驗的特性。而這就是模仿和真實體驗之間的根本區(qū)別。

我們?nèi)祟惡推渌麆游锏囊庾R,其實是基于對感官輸入的第一手、實時的體驗,對它們進(jìn)行存儲、處理、適應(yīng),然后再基于此生成預(yù)測。

在我看來,大語言模型是“空心”的。試圖去探索它們的內(nèi)部運作機(jī)制,某種程度上也是一種擬人化。

當(dāng)然,這是一個有趣的科學(xué)探索,應(yīng)該繼續(xù)做下去。但它不太可能揭示出某種根本性的“意識的本質(zhì)(Consious Truth)”。而這正是一些學(xué)者或開發(fā)者開始探討的東西。我認(rèn)為這種探索是錯誤的,也是過早的。

主持人:但即使它們是“空心的”,它們在規(guī)模變大、技術(shù)改進(jìn)時,確實會變得更強。所以當(dāng)它們更強大、更龐大、更難理解時,你認(rèn)為它們會不會在某種程度上變得難以控制,甚至在后訓(xùn)練階段也無法掌控?

Mustafa Suleyman:我不這么認(rèn)為。就像我在博文中寫的那樣,我看不出這些系統(tǒng)會出現(xiàn)某種“欲望”、“動機(jī)”或“意志”的涌現(xiàn)屬性的理由。

我沒有理由相信這種情況會發(fā)生。從歷史上看,這些特質(zhì)的出現(xiàn)是因為我們有“戰(zhàn)或逃”的本能,為了生存而對環(huán)境作出反應(yīng)。

后訓(xùn)練的好處就在于,它是一種經(jīng)過反復(fù)驗證、非??煽康姆绞?,可以用來塑造特定的行為。因此,我認(rèn)為作為模型開發(fā)者,我們的責(zé)任是仔細(xì)思考:哪些行為要通過后訓(xùn)練去抑制,哪些行為要去放大。

這不會自然而然、涌現(xiàn)式地發(fā)生。如果會發(fā)生,那一定是因為人們刻意地將這些特性工程化地植入系統(tǒng)。因為模型并沒有真正的體驗,它們只是高質(zhì)量地模擬對話而已。所以好消息是,我認(rèn)為我們在這些事情上仍然有很大的控制力。我們可以在積極降低風(fēng)險的同時,盡可能發(fā)揮它們的優(yōu)勢。這就是目標(biāo)。

五、招募人才沒遇到瓶頸,MAI飛輪已經(jīng)開始旋轉(zhuǎn)

主持人:你們在新聞稿里其實也提到過——“來和我們一起工作吧,我們正在做很酷的事”。招募人才一直是AI行業(yè)的一個大問題。你們在這方面情況如何?能不能以理想的薪資招到你們想要的人才?

Mustafa Suleyman:當(dāng)然可以。我們有一支非常出色的團(tuán)隊。從Inflection帶來了一個極其強大的團(tuán)隊,此后也從各大實驗室招聘到了一批優(yōu)秀的人才。

我認(rèn)為我們的招聘非常順利。而且我們一直很謹(jǐn)慎,不會增長得過快或過大。其實在這里,你只需要相對較小的團(tuán)隊,就能做出高質(zhì)量的工作。

與此同時,我們的團(tuán)隊也正在成長到數(shù)百人規(guī)模,所以在招聘上我們處在一個很好的狀態(tài)。

主持人:那你們在吸引年輕的博士生時,通常是怎么說服他們?為什么要選擇來這里,而不是去OpenAI或DeepMind?

Mustafa Suleyman:我認(rèn)為世界上最優(yōu)秀的人才,想要做的是那些真正有影響力的工作,能帶來改變、能做出優(yōu)秀產(chǎn)品,同時解決如何高效實現(xiàn)目標(biāo)的技術(shù)挑戰(zhàn)。

而我們已經(jīng)證明了:我們能夠挑選非常高質(zhì)量的訓(xùn)練數(shù)據(jù),用相對有限數(shù)量的GPU,打造出世界級的模型。

我覺得這就是一張很有吸引力的名片,能讓更多人愿意加入我們的團(tuán)隊。我相信這只是我們未來幾個季度將推出的眾多模型中的第一個。我很期待繼續(xù)打造一支優(yōu)秀的團(tuán)隊。

主持人:我很好奇,在這次發(fā)布之前有報道說模型出現(xiàn)了延遲、遇到問題,早期沒能達(dá)到預(yù)期的能力。你們從中學(xué)到了什么?

畢竟這是微軟首個完整的端到端基礎(chǔ)模型。是不是很大的挑戰(zhàn)?有沒有收獲很多?

Mustafa Suleyman:是的,毫無疑問。構(gòu)建如此規(guī)模的集群、在如此龐大的數(shù)據(jù)上進(jìn)行訓(xùn)練,總是很大的挑戰(zhàn)。

它需要大量的調(diào)試和迭代,需要來回折騰,需要耐心,還需要謙遜。每一家實驗室都經(jīng)歷過這種過程,通過多次迭代才推出新版本。

但我認(rèn)為我們擁有一支非常優(yōu)秀的團(tuán)隊,會繼續(xù)不斷迭代,把新的優(yōu)秀模型推向世界。我對未來充滿期待,因為我們現(xiàn)在已經(jīng)讓自己的“飛輪”轉(zhuǎn)了起來,接下來會有很多非常有趣的事情發(fā)生。

六、核心模型仍需繼續(xù)迭代,不排除開源可能

主持人:你之前在Inflection做過類似的事,再之前你在DeepMind,但那時還沒有大家都在搞十萬級GPU集群的規(guī)模。所以那些經(jīng)驗?zāi)苤苯舆w移過來嗎?還是說每家公司都有自己的一套風(fēng)格或挑戰(zhàn),需要重新學(xué)習(xí)?

Mustafa Suleyman:這是個好問題。歸根結(jié)底,這一切都是在于建立一種偉大的文化。文化吸引團(tuán)隊,團(tuán)隊打造模型,而團(tuán)隊的價值觀最終會體現(xiàn)在我們做出的模型和產(chǎn)品中。

所以我們正在努力建設(shè)一種友善、支持性強、可持續(xù)的文化,同時專注于技術(shù)卓越,盡可能做到最好。

很多人會覺得這非常令人滿足,尤其是當(dāng)我們的產(chǎn)品能夠觸達(dá)數(shù)十億消費者、數(shù)十萬大小企業(yè)的時候。能讓技術(shù)惠及這么多人,本身就是很令人滿足的事。

主持人:說到這里,你們預(yù)計什么時候能把這些模型真正應(yīng)用到微軟龐大的產(chǎn)品網(wǎng)絡(luò)里?

Mustafa Suleyman:很快。我們還需要在核心模型上繼續(xù)一些迭代,然后當(dāng)然要做大量的后訓(xùn)練,把它們應(yīng)用到不同的產(chǎn)品領(lǐng)域,并讓它有可能通過Foundry API提供給外部開發(fā)者使用。這一切都在推進(jìn)中,很快就會發(fā)生。

主持人:你提到過你們從開源世界學(xué)到了很多,但這個模型本身不是開源的。未來會不會開源?還是說這并不是你們的方向?

Mustafa Suleyman:有可能。我們保持開放的態(tài)度,畢竟現(xiàn)在也有很多優(yōu)秀的開源模型。我認(rèn)為第一步是看看它在我們產(chǎn)品中的表現(xiàn),收集反饋,進(jìn)行迭代,然后可能會提供給其他客戶使用。我們現(xiàn)在正在考慮所有這些事情。

主持人:剛才還提到了GB200集群。那么MAI-2已經(jīng)在路上了嗎?是不是一年內(nèi)就能看到?接下來是什么?

Mustafa Suleyman:是的,我們已經(jīng)在做下一個模型了,規(guī)模肯定更大,訓(xùn)練方案上也會有一些新的調(diào)整。一切都在進(jìn)行中,未來幾個月、幾年會有很多新東西。