智東西(公眾號:zhidxcom)
編譯?| 銘滟
編輯 | 云鵬

誰曾想過,引發(fā)人工智能革命的突破竟源自一個改進機器翻譯的想法?

智東西8月21日消息,據(jù)英國《金融時報》報道,被稱為“ChatGPT奠基之作”的著名架構(gòu)Transformer的八位作者均已離開谷歌。Transformer的發(fā)布如同人工智能領域的“宇宙大爆炸”。八位研究人員都看到了人工智能領域的新希望,相繼選擇離開谷歌,各自創(chuàng)立企業(yè)或加入新的團隊以實現(xiàn)自己的抱負。

據(jù)悉,八位作者的初始想法只是想要改進谷歌的機器翻譯,他們希望讓機器通讀整個句子,分析其所有部分,而不是單個單詞逐個翻譯。這一想法經(jīng)過他們的討論與碰撞后,成為“Transformer”架構(gòu)的概念起點——“自我注意力(self-attention)”。

在這一基礎上,八位作者結(jié)合各自專長,于2017年12月發(fā)布論文“Attention Is All You Need(你所需要的是注意力)”。這篇論文所描述的,就是“Transformer”架構(gòu)。

身處人工智能浪潮之中,我們再度回看“宇宙大爆炸”的瞬間,可以發(fā)現(xiàn),與科學發(fā)現(xiàn)中的諸多突破性進展一樣,引發(fā)人工智能革命的突破性進展也湊齊了天時地利人和。

在英國《金融時報》萬字揭秘中,全文回顧了Transformer架構(gòu)的前世今生、八位作者陸續(xù)離開谷歌的緣由以及他們?nèi)缃裨谌斯ぶ悄茴I域的成就等等,我們將帶你一文看盡。

一、Transformer創(chuàng)始八子:人均身價百萬美元起

在詳細講述Transformer架構(gòu)的前世今生之前,我們可以先來認識一下這八位作者,他們分別是Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Illia Polosukhin、Noam Shazeer、Llion Jones、Lukasz Kaiser和Aidan Gomez。

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

▲圖為Ashish Vaswani(左)和Niki Parmar(右),來源:金融時報

論文一作Ashish Vaswani(左)于2014年在南加州大學獲得博士學位,并于2016年作為研究科學家加入谷歌大腦團隊。2022年4月,他與團隊8人之一Niki Parmar共同創(chuàng)辦了Adept AI,但兩人均于12月離開該公司,并共同創(chuàng)立了另一家人工智能初創(chuàng)公司Essential AI。

Niki Parmar(右)來自印度西部浦那。在加入谷歌擔任軟件工程師之前,Parmar也曾就讀于南加州大學。她在谷歌大腦團隊工作了四年,之后與Ashish Vaswani共同創(chuàng)立了Adept AI和Essential AI。

Essential AI的主營業(yè)務是為企業(yè)構(gòu)建軟件,便于企業(yè)使用大型語言模型。今年5月,Essential?Al獲得了由OpenAI投資者“Thrive Capital”領投的800萬美元(約合人民幣5858萬元)融資。

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

▲圖為Jakob Uszkoreit(左)和Illia Polosukhin(右),來源:金融時報

Jakob Uszkoreit(左)曾在柏林學習。2008年至2021年,Uszkoreit在谷歌工作。Uszkoreit于2021年離開谷歌,并與他人共同創(chuàng)立Inceptive。該公司主營業(yè)務為人工智能生命科學,致力于使用神經(jīng)網(wǎng)絡和高通量實驗來設計下一代RNA分子。

Illia Polosukhin(右)曾在烏克蘭哈爾科夫?qū)W習。Polosukhin于2014年加入谷歌,他是八人團隊中最早離開的人之一,于2017年同他人共同創(chuàng)立了區(qū)塊鏈公司NEAR Protocol。

Polosukhin曾任谷歌深度學習小組項目主管,帶隊負責核心搜索算法業(yè)務近10年,也是谷歌TensorFlow人工智能開源項目的主要代碼貢獻者。

他創(chuàng)立的區(qū)塊鏈公司NEAR Protocol目前估值約為20億美元(約合人民幣146億元),曾先后吸引包括a16z、MultiCoin Capital、Metastable、Coinbase Ventures等區(qū)塊鏈領域的著名投資機構(gòu)。

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

▲圖為Noam Shazeer(左)和Llion Jones(右),來源:金融時報

Noam Shazeer(左)曾于2000年至2009年間和2012年至2021年期間就職于谷歌。2021年,Shazeer離開谷歌并與前谷歌工程師Daniel De Freitas共同創(chuàng)立Character.AI,致力于開發(fā)生成式人工智能聊天機器人。今年三月,Character.AI宣布完成1.5億美元(約合人民幣10.98億元)融資,估值達10億美元(約合人民幣73.23億元)。

Llion Jones(右)本碩畢業(yè)于伯明翰大學,曾工作于Delcam、YouTube。他于2012年加入谷歌,擔任軟件工程師。直到本月,他表示自己離開谷歌,并于日本創(chuàng)辦人工智能初創(chuàng)企業(yè)sakana.ai。

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

▲圖為Lukasz Kaiser(左)和Aidan Gomez(右),來源:金融時報

Lukasz Kaiser(左)曾在波蘭和德國學習,曾任法國國家科學研究中心研究員。他于2013年加入谷歌。2021年,他離開谷歌,成為OpenAI的研究員。

Aidan Gomez(右)畢業(yè)于加拿大多倫多大學,Transformer論文發(fā)表時,他還是谷歌大腦團隊的實習生。他是八人團隊中第二個離開谷歌的人。

2019年,他與他人共同創(chuàng)立了Cohere,這是一家總部位于多倫多的初創(chuàng)公司,該公司專注于提供NLP模型,幫助企業(yè)改善人機交互。今年6月,Cohere拿到了由英偉達等參投的2.5億美元融資,當前估值已達20億美元。

二、AI的“宇宙起源”:Transformer

2017年初,兩位谷歌研究科學家Ashish Vaswani和Jakob Uszkoreit在谷歌園區(qū)中討論如何改進機器翻譯(谷歌翻譯背后的人工智能技術(shù))的新想法。

在那時,Illia Polosukhin正與其他人工智能研究員合作研究一個他們稱之為“自我注意力(self-attention)”的想法。自我注意力的概念是讓機器通讀整個句子,分析其所有部分,而不是單個單詞逐個翻譯。然后,機器就可以獲得更通順的上下文,并生成翻譯。他認為,這一概念可以從根本上提升計算機對語言的理解能力。

當時,三位科學家認為這一方法將比現(xiàn)有方法更快、更準確。經(jīng)過嘗試翻譯了一些英德翻譯的文本后,他們發(fā)現(xiàn)自我注意力的概念是有效的。

在走廊里聊天時,Uszkoreit和Vaswani的想法也谷歌老員工Noam Shazeer無意中聽到。

Shazeer曾經(jīng)協(xié)助構(gòu)建谷歌搜索“Did You Mean?”的拼寫檢查功能,他還參與了其他幾項人工智能創(chuàng)新工作,但他對現(xiàn)有的語言生成方法感到失望,并在尋找新思路。

因此,當他聽到同事談論“自我注意力”這個想法時,他決定加入并提供幫助。Shazeer說:“我支持你們,讓我們一起來做吧,這將使所有的人工智能研究員受益匪淺?!?/p>

這次偶然的談話促成了八人團隊為期數(shù)月的合作。他們研究了一種處理語言的架構(gòu),也就是“Transformer”。最終,八人團隊于2017年發(fā)布了一篇簡短的論文,論文標題簡潔有力:“Attention Is All You Need(你所需要的是注意力)”。這篇論文描述了“Transformer”架構(gòu)。

Llion Jones說這個標題是對披頭士樂隊歌曲“All You Need Is Love”的致敬。這篇論文于2017年6月首次發(fā)表,開啟了人工智能的全新時代:生成式人工智能的崛起。

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

▲圖為披頭士樂隊歌曲“All You Need Is Love”封面

如今,絕大多數(shù)的人工智能應用都是以Transformer為基礎架構(gòu)。它不僅嵌入在谷歌搜索和谷歌翻譯中,還是所有的大語言模型(Large Language Model)的基礎架構(gòu),包括ChatGPT和Bard等。

三、Transformer:把“前浪”拍在沙灘上

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

▲圖為Transformer架構(gòu)示意,來源:金融時報

像所有科學進步一樣,Transformer建立在之前幾十年的人工智能相關領域的工作基礎上,這些工作來自谷歌自身的實驗室,以及其子公司DeepMind(現(xiàn)已與谷歌大腦團隊合并)、Meta和各個大學的研究人員等等。

但在2017年,這些碎片因谷歌研究部門的八位成員的偶然集結(jié)而得以融合。

最終的團隊成員包括Vaswani、Shazeer、Uszkoreit、Polosukhin和Jones,以及當時還在多倫多大學攻讀學位的實習生Aidan Gomez和Uszkoreit團隊的碩士研究生Niki Parmar。第八位作者是Lukasz Kaiser,他也是法國國家科學研究中心的兼職學者。

盡管八人團隊在教育、職業(yè)和地理背景上具有多樣性。但是,八人的共同興趣都是人工智能研究的新興領域:自然語言處理。

Uszkoreit在美國和德國長大,他說:“擁有這樣多樣化的團隊成員對這項工作的發(fā)展絕對至關重要?!?/p>

Uszkoreit最初拒絕涉足語言理解領域,因為他的父親是計算語言學的教授。但當他來谷歌實習時,他發(fā)現(xiàn)當時人工智能領域最有意思的問題是語言翻譯。盡管這讓他感到有些惱火,但他最后還是延續(xù)了父親的道路,開始專注于機器翻譯領域。

據(jù)他們回憶,他們最初以三個獨立小組的身份研究“自我注意力”的不同方面,但后來,他們決定集中起來。部分團隊成員負責編寫初始代碼、清洗數(shù)據(jù)和進行測試,而其他人則負責圍繞模型創(chuàng)建架構(gòu),并將其集成到谷歌的基礎設施中,以確保其高效運行,并最終使其易于操作。

Jones談到,“Transformer的想法是我們一起在辦公室工作時自然浮現(xiàn)的?!惫雀柝S富多彩的開放式工作環(huán)境一定程度上保證了員工的創(chuàng)造力?!拔矣浀卯敃rJakob Uszkoreit騎著自行車來到我的辦公桌前,他在我身后的白板上潦草地畫了一個模型,然后收集了當時在場同事的想法?!?/p>

八人團隊之間的聯(lián)系源自他們對語言的癡迷與追求,他們希望能利用人工智更好地理解語言的動機。正如資深工程師Shazeer所說:“文本實際上是我們最集中的抽象思維形式。我一直覺得,如果你想構(gòu)建真正智能的東西,你應該從文本入手?!?/p>

在論文中提到的模型是對原始“自我注意力”概念的簡化版。Shazeer發(fā)現(xiàn),當他們?nèi)コ怂谢ㄉ诘母郊?,這種簡化版的運行效果更好。代碼是模型運行的起點,但模型仍需要大量微調(diào)才能使其在GPU上運行。GPU正是最適合運行類似Transformer這樣的深度學習架構(gòu)的硬件。

Uszkoreit表示,“在深度學習的概念中,重點不僅在架構(gòu)本身。關鍵在于如何將它們應用到硬件上。這像是一個巨大的黑魔法的寶庫,只有極少數(shù)人才能真正掌握其中奧秘?!?/p>

這些硬件運行想法主要由Shazeer負責實現(xiàn),他也被稱為“魔法師”。正因能夠在硬件中運行,Transformer在每一項應用任務中都取得了飛躍式的進步。

它的優(yōu)點在于它支持并行計算,并能將計算打包,提高計算效率。Polosukhin說:“提升計算效率這件事非常簡單,因為Transformer的架構(gòu)非常緊湊?!?/p>

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

▲圖為Lukasz Kaiser和Illia Polosukhin在NeurIPS會議上,背景中可以看到展示Transformer的海報,來源:金融時報

該論文于2017年12月發(fā)表,恰好趕上了當年在加利福尼亞南部舉行的最負盛名的機器學習會議之一——NeurIPS。他們?nèi)匀挥浀?,當他們展示工作海報時,他們被會議現(xiàn)場的研究人員團團圍住。不久之后,谷歌之外的科學家們也開始將Transformer應用于從翻譯到人工智能生成答案、圖像標注和識別等各個領域中。目前,它在研究論文中的引用次數(shù)已經(jīng)超過82000次。

“無論是理論還是實踐領域,Transformer都經(jīng)歷了一次大爆發(fā)?!盫aswani表示:“Transformer推動了機器翻譯的發(fā)展,語言模型Bert出現(xiàn)。當Transformer應用于谷歌搜索時,這意味著Transformer進入了搜索領域,也就是說,人工智能迎來了一個非常重要的時刻?!?/p>

論文發(fā)表后,Parmar發(fā)現(xiàn)Transformer可以生成類似維基百科的長篇文本,而以前的模型很難做到這件事。她說:“當時我們已經(jīng)意識到,以前的研究根本無法生成長文本?!?/p>

Parmar還意識到了Transformer的一個關鍵特性:當你給Transformer越來越多的數(shù)據(jù)時,它們能夠?qū)W得更好。這為GPT-4等大語言模型的出現(xiàn)指明了方向。在推理和語言能力方面,Transformer比它們的“前輩”要強得多。

“總的來說,幾乎在任何可以應用它們的領域里,Transformer的表現(xiàn)都優(yōu)于以前的舊模型。”Jones說,“我認為這就是Transformer被廣泛應用的原因?!?/p>

四、八人出逃谷歌的前奏:Transformer太強了

然而,Transformer的真正威力遠超語言范疇。它可以生成帶有重復圖案或模式的所有東西,從使用DALL·E、Midjourney和Stable Diffusion等工具生成的圖像,到使用GitHub CoPilot等生成器生成的計算機代碼,甚至DNA。

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

▲圖為GitHub CoPilot示意

Vaswani對音樂特別感興趣,她想知道Transformer是否可以用來生成音樂。她驚訝地發(fā)現(xiàn)它不僅可以生成古典鋼琴音樂,還能生成當時最先進的人工智能模型。

“Transformer可以快速捕捉輸入的不同部分之間的連接方式,一旦它捕捉到,它就可以從中學習?!盫aswani說。“這是一種通用方法。Transformer可以捕捉句子中各個部分之間的連接,或者音樂中的音符,圖像中的像素,蛋白質(zhì)的組成部分。它可以用于任何任務?!?/p>

五、八人團隊陸續(xù)離開谷歌:新的種子需要新的土壤

Transformer的起源以及其八人團隊的故事有助于解釋人類在人工智能領域的發(fā)展:這是一個關鍵轉(zhuǎn)折。就像曾經(jīng)的互聯(lián)網(wǎng)和智能手機一樣,Transformer為新一代企業(yè)家提供了種子,讓他們?yōu)榇蟊婇_發(fā)出由人工智能驅(qū)動的消費產(chǎn)品。

但與此同時,這也凸顯了在演變?yōu)辇嫶蟮摹肮倭艡C構(gòu)”的過程中,谷歌究竟如何扼殺了本應蓬勃發(fā)展的創(chuàng)業(yè)精神以及快速推出新消費產(chǎn)品的能力。

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

哈佛商學院教授Clayton Christensen曾提出一個概念,名為“創(chuàng)新者困境”(innovator’s dilemma)。英國《金融時報》認為,八人團隊的出逃正是這一概念的鮮明例證?!皠?chuàng)新者困境”的概念探討了行業(yè)巨頭被小而新的企業(yè)超越的原因。盡管谷歌聚集了全球領先的深度學習和AI人才,并為他們創(chuàng)造了一個有利的研究環(huán)境,但卻無法留住他們自己培養(yǎng)的科學家。

谷歌曾在一份聲明中表示,對于Transformer和其創(chuàng)造的人工智能生態(tài)系統(tǒng),他們感到“自豪”。谷歌承認在如今人工智能行業(yè)充滿活力的環(huán)境中,有才華的員工可能會選擇離開,堪稱喜憂參半。

專家們認為,這些知識資本的增長帶來了海量的人工智能創(chuàng)新。Alphabet旗下專注于人工智能投資的成長型基金CapitalG的合伙人Jill Chase表示:“Transformer已經(jīng)成為幾乎所有使用大語言模型的生成式AI公司的基礎。我的意思是,它無處不在。因為有了Transformer,這些產(chǎn)品才得以存在?!?/p>

六、“沒人想錯過人工智能研究的豐碩成果”

在Transformer論文引起強烈的反響之后,八位研究人員非常希望盡快將自己的想法推向市場。

那時,人工智能研究的步伐正在加快,特別是在使用Transformer生成文本和圖像等領域,但許多創(chuàng)新型貢獻均來自于谷歌之外的初創(chuàng)公司,比如OpenAI。

據(jù)英國《金融時報》七位接受采訪的Transformer共同作者表示,他們想知道他們所創(chuàng)造的工具能夠做什么。“Transformer之后的幾年是研究成果最為豐碩的時期。并且模型會不斷吸收更多反饋,從而變得更智能,”Vaswani說:“沒有人想錯過這個機會?!?/p>

但他們也發(fā)現(xiàn),谷歌公司的組織架構(gòu)不允許員工進行冒險創(chuàng)業(yè)或迅速推出新產(chǎn)品。如果他們想要深入研究Transformer,他們需要開發(fā)一種“可以與計算機對話的新型軟件”,Vaswani補充道,“想做這件事的話,離開谷歌后會更容易?!弊罱K,他于2021年離開谷歌。

Polosukhin早在2017年就離開了谷歌,創(chuàng)辦了一家名為NEAR Protocol的初創(chuàng)公司。他的最初想法是利用人工智能教計算機執(zhí)行編程任務,但后來他轉(zhuǎn)向了區(qū)塊鏈支付領域。

后來,年輕且經(jīng)驗最少的Gomez也呆不住了。他曾在Kaiser的團隊實習,他對時尚和設計充滿熱情,他認為自己正身處于有關語言理解研究的前沿。

他說,“我離開谷歌的原因是,我沒有看到足夠多的產(chǎn)品采納了我正在使用的技術(shù)。谷歌的產(chǎn)品沒有改變,沒有迭代,沒有采用這項新技術(shù)。在谷歌,我沒有看到大語言模型真正發(fā)揮它的力量?!?/p>

2019年,Gomez離開了谷歌,創(chuàng)辦了一家名為Cohere的生成式人工智能初創(chuàng)公司。該公司的估值現(xiàn)已超過20億美元(約合人民幣146億元),獲得了Nvidia、Oracle、Salesforce等公司的投資。Gomez希望將大語言模型應用于各種商業(yè)問題,涵蓋銀行、零售和客戶服務等領域?!皩ξ覀儊碚f,重要的是降低企業(yè)用戶使用大模型的門檻,”他說,“每個開發(fā)者都應該能夠使用人工智能技術(shù)來構(gòu)建應用。”

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

▲圖為Cohere官網(wǎng)示意

與此同時,Uszkoreit決定將Transformer應用于一個完全不同的領域。他的初創(chuàng)公司Inceptive是一家生物技術(shù)公司,正在使用深度學習技術(shù)設計“生物軟件”。

該公司已經(jīng)向一家大型制藥公司交付了由人工智能設計的傳染病疫苗分子。Uszkoreit表示:“我相信,這是迄今為止在我過去十年的工作基礎上改善甚至拯救人們生命的最佳方式?!?/p>

Shazeer于2021年離開了谷歌,這正是他在谷歌的第二十年。他與他人共同創(chuàng)辦了Character.AI。該公司致力于開發(fā)生成式人工智能聊天機器人。他說:“在大公司,我們可能很難推出新產(chǎn)品,但初創(chuàng)公司可以更快地實現(xiàn)我們的想法。”

Vaswani和Parmar于2021年同時離開谷歌,并合作創(chuàng)辦了一家名為Essential.AI的人工智能公司,該公司致力于為企業(yè)構(gòu)建軟件、便于企業(yè)用戶使用大語言模型。今年5月,這家初創(chuàng)公司獲得了由OpenAI投資者“Thrive Capital”領投的800萬美元融資。

“谷歌是一個很棒的公司,但他們希望優(yōu)化現(xiàn)有的產(chǎn)品,所以我們很難推出新產(chǎn)品?!盤armar說:“我希望利用Transformer構(gòu)建新產(chǎn)品,這是我離開谷歌的重要原因之一。”

七、聚則為Transformer,散則成人工智能宇宙

如今,八人團隊仍然時常聯(lián)系。他們不僅共同慶祝彼此的成功,也會在成為初創(chuàng)企業(yè)家時盡可能互相扶持,渡過各種難關。

如果說Transformer的發(fā)布是那個“大爆炸(big bang)”時刻,那么現(xiàn)在,屬于它的宇宙已經(jīng)展開。絕大部分大語言模型都是以Transformer為基礎架構(gòu),包括AlphaFold、ChatGPT等等。

揭秘Transformer創(chuàng)始八子:聚是一團火,散是滿天星

▲圖為Attention Is All You Need論文八位作者署名示意

這也導致了硅谷業(yè)內(nèi)人士稱之為“技術(shù)過?!保╰echnology overhang)的時期——即使研究沒有取得任何進展,各行業(yè)也會花費時間將最新的人工智能技術(shù)應用到產(chǎn)品中。

“人們已經(jīng)感受到了Transformer的深刻影響,人工智能吸引了海量研究人員、技術(shù)專家和產(chǎn)品人員進入這一領域?,F(xiàn)在,我們認為人工智能技術(shù)已經(jīng)過剩,這一技術(shù)可以應用于各種產(chǎn)品中,并實現(xiàn)不同的價值?!盫aswani說:“在某種程度上,這也是我們八人團隊分散于不同領域,試圖讓人類真正用上人工智能產(chǎn)品的原因。”

結(jié)語:人工智能領域正在野蠻生長

Transformer八人團隊因一個初始想法而相聚,進而發(fā)揮各自專長,共同發(fā)布Transformer架構(gòu)。此后,八個人依照各自興趣,相繼離開谷歌,并創(chuàng)立了聚焦于不同領域的人工智能創(chuàng)企。當初的星星之火,現(xiàn)在早已燎原。

僅以2023年上半年的融資情況來看,人工智能企業(yè)的相關融資可以說在經(jīng)濟下行時期展現(xiàn)出逆勢上揚的態(tài)勢。國內(nèi)外均對人工智能領域保持高度關注,相繼發(fā)布各類政策與文件。未來人工智能技術(shù),或?qū)糜谌祟惿畹母鱾€方面。關于人工智能企業(yè)的各類動態(tài),我們也將持續(xù)關注。

來源:英國《金融時報》