智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 心緣

AI音頻賽道,沖出一家百億美元獨角獸!

智東西2月5日報道,昨天,英國AI音頻獨角獸ElevenLabs宣布完成5億美元(約合人民幣34.7億元)的D輪融資,估值達110億美元(約合人民幣763.5億元)。其估值較去年年初的33億美元,實現(xiàn)了超230%的飛速增長。ElevenLabs聯(lián)合創(chuàng)始人兼CEO?Mati Staniszewski還透露,該公司已在考慮IPO事宜。

本輪融資由紅杉資本領投。已參與ElevenLabs多輪融資的a16z追加4倍投資,ICONIQ追加3倍投資,這意味這兩家投資機構增大了在ElevenLabs的持股比例。

1年估值暴漲超500億!黃仁勛安利的AI創(chuàng)企融資35億,計劃IPO

▲Mati Staniszewski發(fā)文宣布融資(圖源:X平臺)

ElevenLabs于2022年成立于英國倫敦,最初主要從事文本轉語音模型的開發(fā),后來也陸續(xù)打造了語音轉文本模型、AI音效模型、AI配音模型、AI音樂模型等領域。

該公司既向企業(yè)提供語音API服務,也為創(chuàng)作者和品牌提供音頻生成平臺ElevenCreative,還通過ElevenAgents平臺向企業(yè)提供AI語音客服服務。你甚至能在知名游戲《堡壘之夜》里找到由ElevenLabs生成的音頻。2025年底,ElevenLabs的ARR(年度經(jīng)常性收入)已經(jīng)超過3.3億美元(約合人民幣22.9億元)。

自成立以來,ElevenLabs已完成五輪融資,累計融資總額達到7.81億美元(約合人民幣54.2億元)。英偉達此前曾參與ElevenLabs的C輪融資。英偉達創(chuàng)始人兼CEO黃仁勛稱,ElevenLabs打造了世界上最好的語音AI產(chǎn)品,他主動向英偉達團隊推薦了ElevenLabs。如今,黃仁勛在各類大會上以虛擬卡通形象出現(xiàn)時,就會用ElevenLabs的工具來復刻自己的聲音。

1年估值暴漲超500億!黃仁勛安利的AI創(chuàng)企融資35億,計劃IPO

▲黃仁勛與Mati Staniszewski(圖源:英偉達)

從融資規(guī)模、收入增長到資本陣容,ElevenLabs已經(jīng)穩(wěn)穩(wěn)位居全球AI音頻賽道的第一梯隊。這樣一家成立不到4年、卻能在競爭激烈的語音AI領域中快速拉開身位的公司,顯然不只是踩中了風口那么簡單。它背后的創(chuàng)業(yè)起點、關鍵選擇,以及對產(chǎn)品與市場的理解,值得深度拆解。

一、上線6個月拿下百萬用戶,靠社交媒體實現(xiàn)爆發(fā)式增長

ElevenLabs的兩位聯(lián)合創(chuàng)始人Mati Staniszewski和Piotr Dabkowski都來自波蘭。受到童年時觀看的那些配音糟糕的美國電影的啟發(fā),他們決定打造一款AI工具,來解決這一問題。

在創(chuàng)業(yè)之前,Mati Staniszewski曾在瀏覽器公司Opera、投資與技術供應商貝萊德以及數(shù)據(jù)智能上市公司Palantir任職。而Piotr Dabkowski自畢業(yè)后,就一直在谷歌擔任軟件工程師,直至2022年與Mati Staniszewski一同創(chuàng)業(yè)。

初出茅廬的ElevenLabs究竟能給這個行業(yè)帶來什么變化?在2023年投資ElevenLabs之際,a16z的投資人Bryan Kim闡述了他對ElevenLabs潛力的理解。

Bryan Kim認為,盡管語音轉文字技術已經(jīng)存在了數(shù)十年,但它未能發(fā)揮全部潛力。大多數(shù)合成語音缺乏吸引人的語調(diào)和發(fā)音,缺乏個性感,而高端的人工錄制語音服務雖然存在,但冗長的制作流程和高昂的成本使得這項技術在大多數(shù)實時和互動場景中難以實現(xiàn)。

ElevenLabs的出現(xiàn),就是要滿足這些場景對高質量語音的需求。

2023年1月,ElevenLabs首次推出了語音設計和克隆產(chǎn)品,并對現(xiàn)有的文字轉語音模型進行了顯著改進。之后還陸續(xù)推出多款文本轉語音模型,擴展多語言支持,甚至拿下了一些已故知名演員的聲音版權,進行克隆并對外提供商業(yè)化服務。

上線6個月后,ElevenLabs已積累超過100萬注冊用戶,創(chuàng)作了總計時長超過10年的音頻內(nèi)容。2024年11月時,其用戶數(shù)量已經(jīng)超過3300萬。2025年,其ARR邁過了1億美元大關。

在2025年6月的一場采訪中,ElevenLabs的增長負責人Luke Harries透露,該公司能實現(xiàn)如此快速的增長,背后主要有兩大驅動力。

一方面,ElevenLabs的基礎模型能力不斷迭代,在表現(xiàn)力、真實感上不斷提升。ElevenLabs認為,語音模型與其他AI模型不同,規(guī)模和數(shù)據(jù)量不是最重要的決定因素,反而是模型架構發(fā)揮著重要作用。

領導ElevenLabs研究工作的聯(lián)合創(chuàng)始人Piotr Dabkowski憑借自己的影響力,招募到了多位世界頂尖的語音AI研究員,該公司已在模型架構上取得一些突破。不過由于他們打造的是閉源模型,外界無從知曉這些改進究竟在哪些方面。

1年估值暴漲超500億!黃仁勛安利的AI創(chuàng)企融資35億,計劃IPO

▲Mati Staniszewski(左)與Piotr Dabkowski(右)

另一方面,ElevenLabs還很擅長市場營銷工作。該公司懂得如何利用社交媒體的力量,還通過舉辦黑客松比賽、制作另類Demo等方式破圈,實現(xiàn)爆發(fā)式增長。

而在企業(yè)客戶方面,ElevenLabs認為在企業(yè)級市場應該采用自下而上的打法,也就是先從消費級和開發(fā)者切入,在建立名聲和信任后,大型客戶自然會來。

二、公司重心已成語音智能體,創(chuàng)始人竟不看好音頻模型未來

不過,ElevenLabs并不想把自己限定在音頻模型這一狹窄的賽道,該公司瞄準的是更大的市場。

在一場與TechCrunch錄制的播客中,Mati Staniszewski稱,ElevenLabs想解決的根本問題,是人類與科技產(chǎn)品如何互動的問題,這是他們一直以來開發(fā)產(chǎn)品的主線。

最初,ElevenLabs打造了文本轉語音模型,讓科技產(chǎn)品中的語音聽起來更像人。但要打造真正優(yōu)秀的體驗,光有逼真的人聲是不夠的,AI還需要能夠生成聲音、音樂,并具備對語音的理解力。Mati Staniszewski認為這是該公司從成立以來到2025年上半年的最大重心。

但事實上,Mati Staniszewski認為音頻模型這條賽道本身并沒有什么前景:“這一賽道或許在未來1-2年內(nèi)仍是成立的,但再過幾年,這項技術就會完全商品化(Commoditized)”。

如今,ElevenLabs還在造模型的原因是,短期內(nèi)它還是提升AI音頻產(chǎn)品質量的最好方式。但隨著這項技術日趨成熟、易于獲取,成為可大量采購的“標準件”,音頻模型或許會成為廣泛的底層基礎能力,而非核心競爭優(yōu)勢。

于是,在2025年下半年,Mati Staniszewski帶領ElevenLabs進行了一項重要的戰(zhàn)略調(diào)整,如今,ElevenLabs的首要任務是幫助企業(yè)部署對話智能體,并能以新的方式與用戶、客戶互動。

Mati Staniszewski判斷,隨著智能體、對話智能體和語音智能體的興起,用戶可以與設備交談了,但要讓這些智能體真正產(chǎn)生價值,就需要將大量信息和知識庫帶入智能體內(nèi)部,使其能夠與現(xiàn)有系統(tǒng)集成。

集成后,這些產(chǎn)品還需要具備可測試、可評估、可監(jiān)控的特點,這樣才能獲取企業(yè)級客戶的信任。

這些智能體的主要應用場景,其實就是AI語音客服。ElevenLabs的智能體是多模態(tài)的,可以理解口頭或書面輸入,像人類一樣傾聽、閱讀并與客戶互動。企業(yè)還可對這些智能體進行定制化,在ElevenLabs提供的可視化工具中打造出對話流,精確定義這些智能體該如何與客戶互動。

1年估值暴漲超500億!黃仁勛安利的AI創(chuàng)企融資35億,計劃IPO

▲ElevenLabs的智能體產(chǎn)品(圖源:ElevenLabs官網(wǎng))

這一戰(zhàn)略決策,讓ElevenLabs得以在企業(yè)級市場進一步攻城略地。如今,在語音智能體賽道,他們的一些大客戶包括Cisco(思科)、Meta、Salesforce等等,而在音頻創(chuàng)作領域,迪士尼、Epic等影視與游戲制作公司都在使用其產(chǎn)品。

反映到ARR上,ElevenLabs在做出這一戰(zhàn)略轉向后,ARR增速明顯加快。2025年初,ElevenLabs達到1億美元ARR時,用時為20個月,而緊接著跨越2億美元ARR大關僅用時10個月。

2026年初,當ElevenLabs宣布實現(xiàn)3.3億美元ARR時,距離他們達成2億美元ARR的時間僅為5個月。

三、主打AI模型+產(chǎn)品,不猛堆算力與數(shù)據(jù)

語音AI賽道,并不缺乏優(yōu)秀的模型。中國的MiniMax、阿里、海外的谷歌、OpenAI等公司都曾打造優(yōu)秀的語音產(chǎn)品,那么,ElevenLabs的差異化優(yōu)勢在哪兒?

就像軟件和硬件的結合才是蘋果公司的魔力一樣,Mati Staniszewski認為,AI模型與產(chǎn)品的結合才能發(fā)揮最大價值。

ElevenLabs雖然也會研究一些前沿方向,比如開源視頻模型與語音模型的結合,但他們更重視的始終是打造更好的產(chǎn)品,不會像競爭對手那樣訓練一些計算密集或數(shù)據(jù)密集的模型。

同時,Mati Staniszewski還認為ElevenLabs具備更高的專注度,他們直接專注于解決人類與計算機進行語音互動的問題,該公司的愿景是獨立于競爭對手們所做的事情之外的。

拿到新融資后,ElevenLabs的首要目標是推動其智能體產(chǎn)品的發(fā)展。未來幾天,他們很快會推出適用于智能體平臺的全新對話模型,能更快、更準確地理解和表達感情。

如今,ElevenLabs已經(jīng)是一家擁有400名員工的公司了,與其他估值相近的AI創(chuàng)企相比,這已經(jīng)幾乎可以算是大公司了。

ElevenLabs正在倫敦、紐約、舊金山、華沙、都柏林、東京、首爾、新加坡、班加羅爾、悉尼、圣保羅、柏林、巴黎和墨西哥城等地開展國際擴展,并配備本地化的市場推廣團隊,這對該公司旗下的語音AI業(yè)務而言,尤其重要。

結語:模型服務于產(chǎn)品,成ElevenLabs突圍思路

回頭看ElevenLabs的成長路徑,它并沒有走一條堆參數(shù)、拼算力的傳統(tǒng)模型公司路線,而是始終圍繞一個更底層的問題推進:語音和音頻,究竟在真實世界里如何被使用。而在戰(zhàn)略層面,他們又足夠清醒地判斷出“音頻模型終將商品化”,果斷將重心轉向對話智能體與企業(yè)場景。

這是一種“產(chǎn)品先行、模型服務于產(chǎn)品”的打法,讓ElevenLabs在語音AI這個擁擠的賽道中擁有了差異化的特點。而這或許也是頭部企業(yè)和頂級風投,愿意重金押注ElevenLabs的關鍵。