智東西(公眾號(hào):zhidxcom)
編譯 |? 孟強(qiáng)
編輯 |??云鵬

智東西7月24日消息,Satbility AI于7月19日在Arxiv上分享了Stable Audio Open的研究論文,公開(kāi)了該模型背后的技術(shù)細(xì)節(jié)。

Stable Audio Open是StabilityAI于今年6月推出的開(kāi)源文本轉(zhuǎn)音頻模型,可免費(fèi)生成長(zhǎng)達(dá)47秒的樣本和音效,還可生成44.1kHz高質(zhì)量立體聲音頻,并且能在消費(fèi)級(jí)GPU上運(yùn)行。除了免費(fèi)、開(kāi)源,該模型還注重保護(hù)創(chuàng)作者版權(quán),在數(shù)據(jù)訓(xùn)練中盡力避免倫理道德問(wèn)題。

論文透露,Stable?Audio?Open是StabilityAI于今年3月推出的商用Stable?Audio?2的變體模型,整體架構(gòu)保持一致,但在訓(xùn)練數(shù)據(jù)的采用和部分架構(gòu)上采取了調(diào)整,關(guān)鍵架構(gòu)由自動(dòng)編碼器、基于T5的文本嵌入以及擴(kuò)散模型(DiT)構(gòu)成。

論文地址:https://arxiv.org/html/2407.14358v1

一、3個(gè)關(guān)鍵架構(gòu)提供支持,免費(fèi)生成44.1kHz高質(zhì)量立體聲短音頻

Stable Audio Open引入了一種文本轉(zhuǎn)音頻模型,有3個(gè)主要架構(gòu):

  1. 自動(dòng)編碼器:將波形數(shù)據(jù)壓縮到可管理的序列長(zhǎng)度;
  2. 基于T5的文本嵌入;
  3. 基于transformer的擴(kuò)散模型(DiT):在自動(dòng)編碼器的潛在空間中運(yùn)行。

自動(dòng)編碼器是一種神經(jīng)網(wǎng)絡(luò)架構(gòu),由編碼器和解碼器組成,編碼器將輸入的數(shù)據(jù)壓縮成一個(gè)較小的潛在空間表示,解碼器則將這個(gè)潛在表示解壓還原。Stable Audio Open中的自動(dòng)編碼器把音頻波形壓縮成一個(gè)較短的序列,以便后續(xù)處理。

火爆全球的AI音頻大模型,最新技術(shù)細(xì)節(jié)揭秘

T5(Text-to-Text Transfer Transformer)是一個(gè)由谷歌開(kāi)發(fā)的自然語(yǔ)言處理模型,它可以將輸入的文本轉(zhuǎn)換為另一種文本表示。在Stable Audio Open中,T5模型將用戶輸入的文本轉(zhuǎn)換成文本嵌入(text embedding),以便于將文本信息融入到音頻生成過(guò)程中。

DiT(Diffusion Transformer)是一種擴(kuò)散模型,在自動(dòng)編碼器的潛在空間中運(yùn)行,對(duì)編碼器壓縮后的數(shù)據(jù)進(jìn)行處理和優(yōu)化,確保解碼器能還原出連貫、高質(zhì)量的音頻。

火爆全球的AI音頻大模型,最新技術(shù)細(xì)節(jié)揭秘

作為Stable?Audio?2的變體模型,Stable?Audio?Open在訓(xùn)練數(shù)據(jù)的采用和部分架構(gòu)上進(jìn)行了調(diào)整。采取了完全不同的數(shù)據(jù)集,并且使用T5代替了CLAP(Contrastive Language-Audio Pretraining)。前者由谷歌開(kāi)發(fā),專(zhuān)注于文本數(shù)據(jù),完成各種自然語(yǔ)言處理任務(wù),而后者由OpenAI研發(fā),即可處理語(yǔ)言數(shù)據(jù),也可處理音頻數(shù)據(jù)。

作為一個(gè)開(kāi)源免費(fèi)的模型,Stable?Audio?Open無(wú)法生成連貫完整的曲目,也不會(huì)針對(duì)完整的曲目、旋律或人聲進(jìn)行優(yōu)化。

Stability AI稱(chēng),Stable Audio Open專(zhuān)注于音頻demo和音效制作,可免費(fèi)生成最長(zhǎng)47秒的44.1kHz高質(zhì)量立體聲音頻。經(jīng)過(guò)專(zhuān)業(yè)訓(xùn)練后,該模型非常適合創(chuàng)建鼓點(diǎn)、樂(lè)器重復(fù)樂(lè)段、環(huán)境音、擬音錄音和其他用于音樂(lè)制作和聲音設(shè)計(jì)的音頻樣本。

此次開(kāi)源版本還有一個(gè)關(guān)鍵優(yōu)勢(shì),即用戶可以根據(jù)自己的自定義音頻數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),這樣,用戶就可以用自己的鼓聲錄音來(lái)訓(xùn)練模型,用自己的風(fēng)格生成獨(dú)特的節(jié)奏。

二、訓(xùn)練過(guò)程著重保護(hù)版權(quán)

在生成式AI快速發(fā)展的背景下,人們對(duì)音樂(lè)行業(yè)使用人工智能的爭(zhēng)論日益激烈,特別是在版權(quán)問(wèn)題上。Stability AI前音頻副總裁Ed Newton-Rex于2023年底離職,理由是他不同意Stability AI在訓(xùn)練模型時(shí)使用受版權(quán)保護(hù)的音頻,認(rèn)為此舉存違背倫理道德。他曾參與開(kāi)發(fā)Stable Audio。

生成式AI的數(shù)據(jù)訓(xùn)練像是一個(gè)黑箱里進(jìn)行,除了開(kāi)發(fā)商,誰(shuí)也不知道訓(xùn)練所使用的數(shù)據(jù)是否受版權(quán)保護(hù)。Newton-Rex說(shuō):“許多價(jià)值數(shù)十億美元的科技公司在未經(jīng)許可的情況下,利用創(chuàng)作者的作品訓(xùn)練生成式人工智能模型,然后使用這些模型生成新內(nèi)容?!彼谝环夤_(kāi)辭職信中表示,他不接受這種依靠侵犯創(chuàng)作者版權(quán)而牟利的行為。

Stability AI表示,為尊重創(chuàng)作者版權(quán),Stable Audio Open使用的數(shù)據(jù)集來(lái)自Freesound和免費(fèi)音樂(lè)檔案(FMA),所有使用的錄音均是CC(Creative Commons)許可下發(fā)布的音頻錄音。CC是一種版權(quán)許可機(jī)制,該機(jī)制允許創(chuàng)作者共享他們的作品,并規(guī)定他人如何使用這些作品。

火爆全球的AI音頻大模型,最新技術(shù)細(xì)節(jié)揭秘

為了確保避免使用任何受版權(quán)保護(hù)的材料,Stability AI稱(chēng)通過(guò)使用音頻標(biāo)記器識(shí)別Freesound中的音樂(lè)樣本,并將識(shí)別出的樣本被發(fā)送到Audible Magic的內(nèi)容檢測(cè)公司,以確保從數(shù)據(jù)集中刪除潛在的受版權(quán)保護(hù)的音樂(lè)。

Stability AI表示:“這讓我們能夠創(chuàng)建一個(gè)開(kāi)放的音頻模型,同時(shí)又能充分尊重創(chuàng)作者的權(quán)利?!?/p>

結(jié)語(yǔ):開(kāi)源、免費(fèi)模型讓文生音頻更普及

Stable Audio Open的推出展示了Stability AI在文本轉(zhuǎn)音頻模型領(lǐng)域的創(chuàng)新和進(jìn)步。雖然該模型在生成音頻長(zhǎng)度和連貫性上存在一定的限制,但其優(yōu)點(diǎn)也顯而易見(jiàn)。它能免費(fèi)生成高質(zhì)量的44.1kHz立體聲音頻,并且能在消費(fèi)級(jí)GPU上運(yùn)行,降低了文生音頻的使用門(mén)檻。

同時(shí),Stable Audio Open在開(kāi)放音頻生成技術(shù)的同時(shí),也為版權(quán)保護(hù)樹(shù)立了新標(biāo)桿。在今后,隨著技術(shù)的不斷進(jìn)步和道德規(guī)范的完善,Stable Audio Open有望在更多應(yīng)用場(chǎng)景中發(fā)揮其潛力,推動(dòng)音頻生成技術(shù)的發(fā)展和普及。

目前,Stable Audio Open模型權(quán)重可在機(jī)器學(xué)習(xí)模型平臺(tái)Hugging Face上獲取。Stability AI鼓勵(lì)聲音設(shè)計(jì)師、音樂(lè)家、開(kāi)發(fā)人員以及任何對(duì)音頻感興趣的人探索該模型的功能并提供反饋。

來(lái)源:Stability AI