智東西(公眾號(hào):zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西8月7日?qǐng)?bào)道,今天,MiniMax推出新一代語(yǔ)音生成模型Speech 2.5。

相比5月發(fā)布的Speech 02,Speech 2.5有三大新突破:多語(yǔ)種表現(xiàn)更自然音色復(fù)刻更像、40個(gè)語(yǔ)種覆蓋更廣。

目前,Speech 2.5已全球上線,用戶可以登錄MiniMax開(kāi)放平臺(tái)或MiniMax Audio官網(wǎng)體驗(yàn):

MiniMax開(kāi)放平臺(tái):minimaxi.com/platform_overview

MiniMax Audio:minimaxi.com/audio

MiniMax語(yǔ)音模型上新!40種語(yǔ)言真人級(jí)生成,喜馬拉雅、網(wǎng)易已接入聲線

▲Speech 2.5主頁(yè)

用戶可以在Speech 2.5主頁(yè)選擇想要的音色,在對(duì)話框內(nèi)輸入文字描述,也可以上傳文件,就可以一鍵生成所需音頻。下文呈現(xiàn)了官方公布的Speech 02生成音頻的Demo和智東西實(shí)測(cè)案例:

一、多語(yǔ)種自然表達(dá),減小機(jī)械感

MiniMax Speech 2.5提高了生成音頻的相似度和自然韻律度,降低了字錯(cuò)率、減小了AI生成的商務(wù)會(huì)議、日常對(duì)話、英文播客的機(jī)械感。

智東西實(shí)測(cè),其還可以給音頻添加場(chǎng)景氛圍音,例如美國(guó)女高中生在廣播中演講

音頻內(nèi)容:Two years is nothing, but at the same time a lot can be accomplished in two years. You can try a sport you’ve always wanted to start, and become great at it. You can start a morning routine and affect your mood and stress at a deep level. You can meditate for a few minutes per day, become more self-aware and change the way you react to problems. You can start a business and make it a big success.

生成的音頻不但可以清晰準(zhǔn)確地念出文字,還有母語(yǔ)者很地道的停頓、語(yǔ)調(diào)。

立下復(fù)仇誓言的哈姆雷特

音頻內(nèi)容:Remember? Yea, from the tables of my memory, I’ll wipe away all trivial fond records. All saws of books, all forms, all pressures past, that youth and observation copied there. And then commandment all alone shall live within the book and volume of my brain, unmixed with baser matter. Yes, yes by heaven.

再比如,充滿激情的西班牙體育賽事解說(shuō)員:

音頻內(nèi)容:?Arranca el genio por la derecha, deja atrás a uno, se saca de encima al segundo, entra al área, prepara el remate…?GOLAZO MONUMENTAL! ?Una obra de arte que sella la victoria y desata la locura total!

二、跨語(yǔ)種復(fù)刻口音,還原聲線

Speech 2.5還可以跨語(yǔ)種復(fù)刻口音,保留同語(yǔ)種不同地區(qū)的口音,還能保留特殊年齡的聲線特點(diǎn),用戶可以自由選擇自己想要的音色。

智東西實(shí)測(cè),用霸道總裁的聲線說(shuō)甄嬛傳中皇上的經(jīng)典臺(tái)詞:

音頻內(nèi)容:嬛嬛一裊楚宮腰,那更春來(lái)香減玉消。紫禁城的風(fēng)水養(yǎng)人,必不會(huì)叫你玉減香消。

用英國(guó)女王的經(jīng)典發(fā)音來(lái)介紹最新的Speech 2.5會(huì)是什么樣?

音頻內(nèi)容:Hello everyone. We’re thrilled to introduce the next generation of our voice model: MiniMax Speech 2.5. Building on its predecessor, Speech 2.0, this new version is more powerful than ever. But where it truly shines is in its incredible realism. The model masterfully captures the subtle nuances of the human voice——from trailing intonation and vocal style, to the full spectrum of emotion, all reproduced with stunning authenticity.

從停頓、節(jié)奏、到發(fā)音處理,模型生成的語(yǔ)音保持了純正的“女王腔”。

跨語(yǔ)種復(fù)刻也可以辦到,智東西讓Speech 2.5用熱血韓漫男主的音色說(shuō)“美美桑內(nèi)”歌詞,在韓語(yǔ)和英語(yǔ)中切換:

音頻內(nèi)容:???? ??,???? ??,never stop burn it,? ?? ??? oh you know?

同一音色在意大利語(yǔ)、英語(yǔ)間的切換:

音頻內(nèi)容:Questa è la mia vera voce. I find speaking English a bit difficult. It’s like trying to speak Italian without using hand gestures.

在不同的語(yǔ)言中切換,Speech 2.5生成的內(nèi)容依舊可以保留口音特色細(xì)節(jié)。

三 、新增多個(gè)小語(yǔ)種,語(yǔ)種類型增至40個(gè)

Speech 2.5新增了保加利亞語(yǔ)、丹麥語(yǔ)、希伯來(lái)語(yǔ)、馬來(lái)語(yǔ)、波斯語(yǔ)、斯洛伐克語(yǔ)等多個(gè)小語(yǔ)種,語(yǔ)種類型擴(kuò)充到了40個(gè)。跨境電商、出海客服、本地化營(yíng)銷,全球化內(nèi)容可以一鍵創(chuàng)作。

比如馬來(lái)語(yǔ):

音頻內(nèi)容:Selamat datang, semoga hari anda indah.

希伯來(lái)語(yǔ):

音頻內(nèi)容:.?????? ??????? ???? ???

四、促進(jìn)跨境業(yè)務(wù),喜馬拉雅、網(wǎng)易都用了

MiniMax Speech語(yǔ)音模型可以應(yīng)用在多種場(chǎng)景下,例如多語(yǔ)種客服、跨國(guó)廣告配音、跨國(guó)教育、跨境電商等。

目前,MiniMax Speech語(yǔ)音模型已在全球被廣泛采用。在海外,Vapi、Pipecat等Agent平臺(tái)選擇使用MiniMax Speech提供服務(wù),Hedra、Icon、Syllaby等頭部AI應(yīng)用也已接入MiniMax Speech。

國(guó)內(nèi),高途教育、喜馬拉雅、網(wǎng)易、Rokid眼鏡等頭部平臺(tái)及產(chǎn)品都選擇了MiniMax Speech。

結(jié)語(yǔ):MiniMax在AI音頻賽道繼續(xù)深耕

MiniMax在AI音頻賽道并非初出茅廬,其今年5月發(fā)布的Speech 02在Artificial Analysis和Hugging Face TTS Arena兩項(xiàng)語(yǔ)音基準(zhǔn)測(cè)評(píng)榜單中超越 OpenAI、ElevenLabs等知名模型,獲得雙料第一。

Speech 2.5可視為Speech 02的進(jìn)階版本,在繼承前代優(yōu)勢(shì)的基礎(chǔ)上,進(jìn)一步在多語(yǔ)種、音色復(fù)刻及語(yǔ)種覆蓋上深入優(yōu)化。

當(dāng)下,眾多企業(yè)和研究機(jī)構(gòu)紛紛布局,AI音頻賽道競(jìng)爭(zhēng)愈發(fā)激烈,MiniMax Speech 2.5的發(fā)布為市場(chǎng)注入了新的活力。