国产,日韩av在线播放,我来也在线观看免费播放

智東西（公眾號(hào)：zhidxcom）
編譯 |? 孟強(qiáng)
編輯 |??云鵬

智東西7月24日消息，Satbility AI于7月19日在Arxiv上分享了Stable Audio Open的研究論文，公開(kāi)了該模型背后的技術(shù)細(xì)節(jié)。

Stable Audio Open是StabilityAI于今年6月推出的開(kāi)源文本轉(zhuǎn)音頻模型，可免費(fèi)生成長(zhǎng)達(dá)47秒的樣本和音效，還可生成44.1kHz高質(zhì)量立體聲音頻，并且能在消費(fèi)級(jí)GPU上運(yùn)行。除了免費(fèi)、開(kāi)源，該模型還注重保護(hù)創(chuàng)作者版權(quán)，在數(shù)據(jù)訓(xùn)練中盡力避免倫理道德問(wèn)題。

論文透露，Stable?Audio?Open是StabilityAI于今年3月推出的商用Stable?Audio?2的變體模型，整體架構(gòu)保持一致，但在訓(xùn)練數(shù)據(jù)的采用和部分架構(gòu)上采取了調(diào)整，關(guān)鍵架構(gòu)由自動(dòng)編碼器、基于T5的文本嵌入以及擴(kuò)散模型（DiT）構(gòu)成。

論文地址：https://arxiv.org/html/2407.14358v1

一、3個(gè)關(guān)鍵架構(gòu)提供支持，免費(fèi)生成44.1kHz高質(zhì)量立體聲短音頻

Stable Audio Open引入了一種文本轉(zhuǎn)音頻模型，有3個(gè)主要架構(gòu)：

自動(dòng)編碼器：將波形數(shù)據(jù)壓縮到可管理的序列長(zhǎng)度；
基于T5的文本嵌入；
基于transformer的擴(kuò)散模型(DiT)：在自動(dòng)編碼器的潛在空間中運(yùn)行。

自動(dòng)編碼器是一種神經(jīng)網(wǎng)絡(luò)架構(gòu)，由編碼器和解碼器組成，編碼器將輸入的數(shù)據(jù)壓縮成一個(gè)較小的潛在空間表示，解碼器則將這個(gè)潛在表示解壓還原。Stable Audio Open中的自動(dòng)編碼器把音頻波形壓縮成一個(gè)較短的序列，以便后續(xù)處理。

火爆全球的AI音頻大模型，最新技術(shù)細(xì)節(jié)揭秘

T5（Text-to-Text Transfer Transformer）是一個(gè)由谷歌開(kāi)發(fā)的自然語(yǔ)言處理模型，它可以將輸入的文本轉(zhuǎn)換為另一種文本表示。在Stable Audio Open中，T5模型將用戶輸入的文本轉(zhuǎn)換成文本嵌入（text embedding），以便于將文本信息融入到音頻生成過(guò)程中。

DiT（Diffusion Transformer）是一種擴(kuò)散模型，在自動(dòng)編碼器的潛在空間中運(yùn)行，對(duì)編碼器壓縮后的數(shù)據(jù)進(jìn)行處理和優(yōu)化，確保解碼器能還原出連貫、高質(zhì)量的音頻。

火爆全球的AI音頻大模型，最新技術(shù)細(xì)節(jié)揭秘

作為Stable?Audio?2的變體模型，Stable?Audio?Open在訓(xùn)練數(shù)據(jù)的采用和部分架構(gòu)上進(jìn)行了調(diào)整。采取了完全不同的數(shù)據(jù)集，并且使用T5代替了CLAP（Contrastive Language-Audio Pretraining）。前者由谷歌開(kāi)發(fā)，專(zhuān)注于文本數(shù)據(jù)，完成各種自然語(yǔ)言處理任務(wù)，而后者由OpenAI研發(fā)，即可處理語(yǔ)言數(shù)據(jù)，也可處理音頻數(shù)據(jù)。

作為一個(gè)開(kāi)源免費(fèi)的模型，Stable?Audio?Open無(wú)法生成連貫完整的曲目，也不會(huì)針對(duì)完整的曲目、旋律或人聲進(jìn)行優(yōu)化。

Stability AI稱(chēng)，Stable Audio Open專(zhuān)注于音頻demo和音效制作，可免費(fèi)生成最長(zhǎng)47秒的44.1kHz高質(zhì)量立體聲音頻。經(jīng)過(guò)專(zhuān)業(yè)訓(xùn)練后，該模型非常適合創(chuàng)建鼓點(diǎn)、樂(lè)器重復(fù)樂(lè)段、環(huán)境音、擬音錄音和其他用于音樂(lè)制作和聲音設(shè)計(jì)的音頻樣本。

此次開(kāi)源版本還有一個(gè)關(guān)鍵優(yōu)勢(shì)，即用戶可以根據(jù)自己的自定義音頻數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)，這樣，用戶就可以用自己的鼓聲錄音來(lái)訓(xùn)練模型，用自己的風(fēng)格生成獨(dú)特的節(jié)奏。

二、訓(xùn)練過(guò)程著重保護(hù)版權(quán)

在生成式AI快速發(fā)展的背景下，人們對(duì)音樂(lè)行業(yè)使用人工智能的爭(zhēng)論日益激烈，特別是在版權(quán)問(wèn)題上。Stability AI前音頻副總裁Ed Newton-Rex于2023年底離職，理由是他不同意Stability AI在訓(xùn)練模型時(shí)使用受版權(quán)保護(hù)的音頻，認(rèn)為此舉存違背倫理道德。他曾參與開(kāi)發(fā)Stable Audio。

生成式AI的數(shù)據(jù)訓(xùn)練像是一個(gè)黑箱里進(jìn)行，除了開(kāi)發(fā)商，誰(shuí)也不知道訓(xùn)練所使用的數(shù)據(jù)是否受版權(quán)保護(hù)。Newton-Rex說(shuō)：“許多價(jià)值數(shù)十億美元的科技公司在未經(jīng)許可的情況下，利用創(chuàng)作者的作品訓(xùn)練生成式人工智能模型，然后使用這些模型生成新內(nèi)容?！彼谝环夤_(kāi)辭職信中表示，他不接受這種依靠侵犯創(chuàng)作者版權(quán)而牟利的行為。

Stability AI表示，為尊重創(chuàng)作者版權(quán)，Stable Audio Open使用的數(shù)據(jù)集來(lái)自Freesound和免費(fèi)音樂(lè)檔案(FMA)，所有使用的錄音均是CC（Creative Commons）許可下發(fā)布的音頻錄音。CC是一種版權(quán)許可機(jī)制，該機(jī)制允許創(chuàng)作者共享他們的作品，并規(guī)定他人如何使用這些作品。

火爆全球的AI音頻大模型，最新技術(shù)細(xì)節(jié)揭秘

為了確保避免使用任何受版權(quán)保護(hù)的材料，Stability AI稱(chēng)通過(guò)使用音頻標(biāo)記器識(shí)別Freesound中的音樂(lè)樣本，并將識(shí)別出的樣本被發(fā)送到Audible Magic的內(nèi)容檢測(cè)公司，以確保從數(shù)據(jù)集中刪除潛在的受版權(quán)保護(hù)的音樂(lè)。

Stability AI表示：“這讓我們能夠創(chuàng)建一個(gè)開(kāi)放的音頻模型，同時(shí)又能充分尊重創(chuàng)作者的權(quán)利?！?/p>

結(jié)語(yǔ)：開(kāi)源、免費(fèi)模型讓文生音頻更普及

Stable Audio Open的推出展示了Stability AI在文本轉(zhuǎn)音頻模型領(lǐng)域的創(chuàng)新和進(jìn)步。雖然該模型在生成音頻長(zhǎng)度和連貫性上存在一定的限制，但其優(yōu)點(diǎn)也顯而易見(jiàn)。它能免費(fèi)生成高質(zhì)量的44.1kHz立體聲音頻，并且能在消費(fèi)級(jí)GPU上運(yùn)行，降低了文生音頻的使用門(mén)檻。

同時(shí)，Stable Audio Open在開(kāi)放音頻生成技術(shù)的同時(shí)，也為版權(quán)保護(hù)樹(shù)立了新標(biāo)桿。在今后，隨著技術(shù)的不斷進(jìn)步和道德規(guī)范的完善，Stable Audio Open有望在更多應(yīng)用場(chǎng)景中發(fā)揮其潛力，推動(dòng)音頻生成技術(shù)的發(fā)展和普及。

目前，Stable Audio Open模型權(quán)重可在機(jī)器學(xué)習(xí)模型平臺(tái)Hugging Face上獲取。Stability AI鼓勵(lì)聲音設(shè)計(jì)師、音樂(lè)家、開(kāi)發(fā)人員以及任何對(duì)音頻感興趣的人探索該模型的功能并提供反饋。

來(lái)源：Stability AI

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、3個(gè)關(guān)鍵架構(gòu)提供支持，免費(fèi)生成44.1kHz高質(zhì)量立體聲短音頻

二、訓(xùn)練過(guò)程著重保護(hù)版權(quán)

結(jié)語(yǔ)：開(kāi)源、免費(fèi)模型讓文生音頻更普及

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、3個(gè)關(guān)鍵架構(gòu)提供支持，免費(fèi)生成44.1kHz高質(zhì)量立體聲短音頻

二、訓(xùn)練過(guò)程著重保護(hù)版權(quán)

結(jié)語(yǔ)：開(kāi)源、免費(fèi)模型讓文生音頻更普及

相關(guān)推薦

一、3個(gè)關(guān)鍵架構(gòu)提供支持，免費(fèi)生成44.1kHz高質(zhì)量立體聲短音頻

二、訓(xùn)練過(guò)程著重保護(hù)版權(quán)