智東西(公眾號(hào):zhidxcom)
編譯 | ?王欣逸
編輯 | ?程茜

智東西11月3日消息,10月29日,美國(guó)語音生成創(chuàng)企Cartesia創(chuàng)始人兼首席執(zhí)行官Karan Goel在社交平臺(tái)X上宣布推出全新的語音模型Sonic-3,同時(shí)還披露其已完成1億美元(約合人民幣7.12億元)融資,英偉達(dá)參投。

Cartesia創(chuàng)立于2023年,由5位斯坦福AI實(shí)驗(yàn)室研究員創(chuàng)立,其中Chris Ré是他們導(dǎo)師、Albert Gu、Brandon Yang是華人。值得一提的是,Cartesia首席科學(xué)家兼聯(lián)合創(chuàng)始人Albert Gu是Mamba作者之一,而另一位華人Brandon Yang曾在谷歌大腦團(tuán)隊(duì)工作。

黃仁勛又投了個(gè)AI創(chuàng)企!創(chuàng)始團(tuán)隊(duì)有兩位華人大牛,還有Mamba、谷歌背景

▲Cartesia創(chuàng)始人團(tuán)隊(duì),從左到右依次為:Brandon Yang、Karan Goel、Albert Gu和Arjun Desai(圖源:Cartesia)

此前,Cartesia曾在2024年12月獲得Index Ventures領(lǐng)投的2700萬美元(約合人民幣1.92億元)種子輪融資,僅過去不到3個(gè)月,2025 年 3 月,Cartesia就宣布完成了6400萬美元(約合人民幣4.56億元)的A輪融資。

外媒AIM Media House稱,Cartesia提供了基于SSM(狀態(tài)空間模型)架構(gòu)的語音生成和語音識(shí)別模型,Sonic-3采用的是非Transformer架構(gòu),適用于實(shí)時(shí)對(duì)話和語音交互應(yīng)用。

目前,包括云計(jì)算平臺(tái)ServiceNow、AI客服平臺(tái)Cresta和Decagon在內(nèi)的數(shù)千家企業(yè)都借助Sonic模型每月處理數(shù)百萬次對(duì)話。

智東西第一時(shí)間對(duì) Sonic-3進(jìn)行了實(shí)測(cè)。智東西讓Sonic-3用中文講一個(gè)故事,Sonic-3只用了兩秒就生成播放了音頻,不過Sonic-3說中文的流暢度還有待提升。

智東西又讓其用英文隨機(jī)念了一段紀(jì)錄片旁白,相比于中文,英文則相當(dāng)流暢自然,幾乎聽不出來是AI生成的。

一、斯坦福全明星陣容,Mamba作者也上了

斯坦福AI實(shí)驗(yàn)室對(duì)多年來的SSM研究成果進(jìn)行了轉(zhuǎn)化,創(chuàng)辦了Cartesia。

Cartesia聯(lián)合創(chuàng)始團(tuán)隊(duì)相識(shí)于斯坦福,由兩位華人、兩位印度人及他們的共同導(dǎo)師組成。在校期間,他們便發(fā)明了SSM,用于訓(xùn)練更高質(zhì)量、更高效的大模型。

Cartesia首席科學(xué)家兼聯(lián)合創(chuàng)始人Albert Gu是Mamba的主要作者之一。相比傳統(tǒng)Transformer模型,Mamba的SSM模型則實(shí)現(xiàn)了低延遲、高精度的序列預(yù)測(cè)。同時(shí)Albert Gu還入選了2024年《時(shí)代》雜志全球最具影響力人物名單。

Cartesia CEO兼聯(lián)合創(chuàng)始人Karan Goel博士畢業(yè)于斯坦福大學(xué),在卡內(nèi)基梅隆大學(xué)攻讀碩士期間曾獲得Siebel Scholar獎(jiǎng)學(xué)金,在斯坦福期間還受到了斯坦福計(jì)算機(jī)科學(xué)系副教授艾瑪·布倫斯基爾、斯坦福以人為本AI研究中心主任李飛飛等許多杰出教授的指導(dǎo)。

過去四年,Cartesia團(tuán)隊(duì)積極構(gòu)建SSM背后的理論,并將其擴(kuò)展到文本、音頻、視頻、圖像和時(shí)間序列數(shù)據(jù)等各種模態(tài),取得了最先進(jìn)的成果。基于在斯坦福對(duì)SSM的研究,創(chuàng)始團(tuán)隊(duì)一開始就瞄準(zhǔn)了SSM架構(gòu)和語音模型。

Cartesia為用戶提供了一個(gè)企業(yè)級(jí)AI語音平臺(tái),用戶在該平臺(tái)上可以使用語音與文本轉(zhuǎn)換的模型——文本轉(zhuǎn)語音模型Sonic和語音轉(zhuǎn)文本模型Ink,還可以構(gòu)建語音Agent。

二、配備42種語言和自定義發(fā)音,響應(yīng)速度不到0.2s

Cartesia公司的發(fā)展節(jié)奏相當(dāng)之快,伴隨著Cartesia拿到最新的一輪融資,該公司推出了全新的Sonic-3模型。

Sonic-3模型在支持語言數(shù)量、可控性和速度上存在優(yōu)勢(shì)。用戶可以選擇系統(tǒng)配備的42種語言500多種音色進(jìn)行文本轉(zhuǎn)語音功能,在Sonic-2的15種語言的基礎(chǔ)上大大增加。

黃仁勛又投了個(gè)AI創(chuàng)企!創(chuàng)始團(tuán)隊(duì)有兩位華人大牛,還有Mamba、谷歌背景

▲Cartesia可支持語言(圖源:Cartesia)

在Sonic-3語音庫里,共有10種中文聲音類型可供選擇,而配備較多的英文語音還更細(xì)地分成了11種不同地區(qū)的口音。

黃仁勛又投了個(gè)AI創(chuàng)企!創(chuàng)始團(tuán)隊(duì)有兩位華人大牛,還有Mamba、谷歌背景

▲擁有11種口音的英文(圖源:Cartesia)

在可控性上,該模型不僅能進(jìn)行基本的語音生成,還能夠通過API參數(shù)和SSML標(biāo)簽對(duì)音量、語速和情緒進(jìn)行精細(xì)控制,能精準(zhǔn)捕捉人的情緒,包括笑聲、語調(diào)及微妙的情感轉(zhuǎn)換等,支持自定義發(fā)音。

Sonic-3的模型延遲僅為90毫秒,端到端總響應(yīng)時(shí)間在190毫秒以內(nèi),外媒AIM Media House稱該模型已躋身全球最快的實(shí)時(shí)語音AI系統(tǒng)之列。

Sonic-3還支持語音克隆的功能,并支持微調(diào)使其更還原參考原聲。此外,新模型還能對(duì)生成的語音進(jìn)行自動(dòng)緩沖與延續(xù),這意味著,實(shí)時(shí)語音處理將變得更加高效與自然。

黃仁勛又投了個(gè)AI創(chuàng)企!創(chuàng)始團(tuán)隊(duì)有兩位華人大牛,還有Mamba、谷歌背景

▲語音克?。▓D源:Cartesia)

與大多數(shù)依賴Transformer架構(gòu)的語音模型不同,Sonic-3基于SSM架構(gòu)?;赥ransformer架構(gòu)的模型會(huì)通過重新回顧先前對(duì)話來預(yù)測(cè)下一個(gè)詞,從而導(dǎo)致語音生成的延遲與低效。而SSM(例如S4和Mamba等創(chuàng)新技術(shù))更接近人類思維模式,它們能夠持續(xù)理解主題和對(duì)話,無需從頭開始回顧所有內(nèi)容,這使得Sonic-3能夠生成既自然又快速的語音。

利用Sonic模型,Cartesia的平臺(tái)可以幫助企業(yè)構(gòu)建具備復(fù)雜任務(wù)處理能力的語音Agent,包括客戶支持、日程安排,甚至輕松愉快的惡作劇等。

黃仁勛又投了個(gè)AI創(chuàng)企!創(chuàng)始團(tuán)隊(duì)有兩位華人大牛,還有Mamba、谷歌背景

▲創(chuàng)建個(gè)性化Agent(圖源:Cartesia)

結(jié)語:Cartesia要革新實(shí)時(shí)語音模型賽道

在AI音頻生成賽道上,不乏有MiniMax、Genspark、ElevenLabs等強(qiáng)勁的競(jìng)爭(zhēng)對(duì)手。伴隨著Cartesia獲得新一輪融資,Sonic-3新模型投入使用,語音模型賽道競(jìng)爭(zhēng)更加激烈。

ServiceNow產(chǎn)品副總裁Ravi Krishnamurthy稱:“Cartesia的SSM架構(gòu)為我們的語音Agent帶來了企業(yè)級(jí)的速度和質(zhì)量?!?/p>

近幾年,Cartesia一直朝著SSM架構(gòu)努力,隨著實(shí)時(shí)對(duì)話需求的急劇增長(zhǎng),這一技術(shù)或?qū)槠髽I(yè)和其他用戶提供更為精準(zhǔn)、快速的解決方案。

來源:AIM Media House