智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中國生成式AI大會于4月18-19日在北京舉行,在大會第二天的主會場AIGC應(yīng)用專場上,DeepMusic CEO劉曉光以《AIGC如何賦能音樂創(chuàng)作與制作》為題發(fā)表演講。

劉曉光系統(tǒng)性復(fù)盤了當(dāng)前音樂商業(yè)格局,包括不同音樂用戶群體的特征與主要使用產(chǎn)品、相關(guān)音樂公司的商業(yè)獲利模式。

他提到當(dāng)前音樂商業(yè)格局主要面向泛音樂愛好者的聽歌度實(shí)踐用戶的唱歌消費(fèi)體驗(yàn),中間有1億以上活躍音樂人、音樂實(shí)踐者群體的需求尚未得到好的產(chǎn)品滿足;同時音樂制作流程長、門檻高,這使得音樂AIGC技術(shù)有用武之地。

音樂創(chuàng)作與制作本身具備一定的專業(yè)性門檻,非專業(yè)人士很難借助音樂來表達(dá)自我,AIGC的發(fā)展為音樂創(chuàng)作帶來了另一種可能性。劉曉光不僅詳細(xì)回顧了音樂生產(chǎn)工具的40年演變歷程以及其中三個關(guān)鍵階段,并對近期多個爆款A(yù)I音樂生成產(chǎn)品進(jìn)行推演,解讀其背后采用的技術(shù)方案。

劉曉光深入講解了音頻模型、符號模型兩類AI音樂模型所涉及的工作原理、訓(xùn)練數(shù)據(jù)及算法技術(shù),并就跨平臺一站式AI音樂工作站“和弦派”的設(shè)計邏輯進(jìn)行分享?!昂拖遗伞币愿庇^的功能譜呈現(xiàn)音樂創(chuàng)作部分信息,解決音樂中歌詞、旋律、伴奏等不同模態(tài)之間溝通困難的問題,實(shí)現(xiàn)跨PC、手機(jī)平臺的音樂創(chuàng)作、制作體驗(yàn)。

他認(rèn)為音樂產(chǎn)業(yè)明年就能實(shí)現(xiàn)自然語言生成高品質(zhì)伴奏的功能,只需上傳30秒人聲素材,就能生成用自己聲音演唱的歌曲。未來,DeepMusic也會通過積累的精細(xì)化標(biāo)注數(shù)據(jù),實(shí)現(xiàn)對音頻模型的精細(xì)化控制。

以下為劉曉光的演講實(shí)錄:

我們公司專注于音樂AIGC技術(shù),因此,基于在此領(lǐng)域的專業(yè)認(rèn)知,我們將與大家探討以下幾個方面:行業(yè)現(xiàn)狀、AIGC對音樂行業(yè)的潛在影響、AIGC在音樂數(shù)據(jù)與技術(shù)方面的應(yīng)用,以及未來發(fā)展趨勢。

一、音樂商業(yè)格局:泛音樂愛好者月活達(dá)8億,頭部企業(yè)極度集中

我們先來了解一下音樂行業(yè)的整體情況。

音樂行業(yè)最外圈的群體是泛音樂愛好者,他們主要通過聽歌來體驗(yàn)音樂,使用的主要產(chǎn)品包括酷狗音樂、QQ音樂和網(wǎng)易云音樂等。根據(jù)上市公司的數(shù)據(jù)顯示,這一群體的月活躍用戶大約達(dá)到8億人。

泛音樂愛好者是音樂行業(yè)中最廣泛參與的群體之一。出于對音樂的興趣,部分聽歌人會參與一些與音樂相關(guān)的實(shí)踐活動,例如,最淺的音樂實(shí)踐就是唱K和觀看音樂演出,主要使用全民K歌等產(chǎn)品。

中度實(shí)踐階段,我們通常會使用一些產(chǎn)品,例如蘋果系統(tǒng)預(yù)裝軟件酷樂隊和安卓應(yīng)用商店中的完美鋼琴。完美鋼琴在安卓應(yīng)用商店的下載量可能接近1億次,但其留存率卻相對較低。這表明,中度實(shí)踐用戶開始對音樂產(chǎn)生需求,但目前市場上的產(chǎn)品并不能完全滿足他們的需求

DeepMusic劉曉光:深度解讀AIGC音樂創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

接下來是深度實(shí)踐用戶,主要涵蓋15至30歲的年輕人和50歲以上的中老年人。其中,約15%的年輕人已經(jīng)參與音樂類興趣社團(tuán),而約15%的中老年人參與了中老年合唱團(tuán)等興趣社團(tuán)。這些用戶逐漸表現(xiàn)出創(chuàng)作的意愿,預(yù)計規(guī)模大約為2000萬人。我們將這些積極從事音樂實(shí)踐的人群統(tǒng)稱為音樂實(shí)踐者。

從音樂實(shí)踐者進(jìn)一步升級,則為音樂人。國內(nèi)音樂人總數(shù)約為100萬。這一群體主要來自騰訊、網(wǎng)易以及抖音等平臺,主要從事創(chuàng)作和表演活動。作為音樂人,他們至少發(fā)布過1首原創(chuàng)作品。大多數(shù)音樂人并非經(jīng)過傳統(tǒng)的專業(yè)音樂教育培養(yǎng)而成,而是通過職業(yè)培訓(xùn)學(xué)校獲得技能,傳統(tǒng)音樂教育并不為數(shù)字音樂行業(yè)提供人才。

音樂人創(chuàng)作時使用的軟件很有意思,比如作詞用Word,作曲用錄音機(jī),我們可能也覺得用這些軟件制作音樂有些奇怪,我們清楚不可能用錄音機(jī)做出咱們平時聽的高質(zhì)量音樂作品。

還有一個群體被稱為音樂制作人。這些人通常是從音樂人逐漸晉升而來,他們需要經(jīng)過多年的制作經(jīng)驗(yàn)才能勝任。他們的主要任務(wù)是將音樂人提供的音樂錄音Demo進(jìn)行制作。在這個過程中,常見的音樂制作軟件包括雅馬哈公司的Cubase和蘋果公司的Logic Pro,它們是目前主流的音樂制作工具,通常運(yùn)行在個人電腦上。然而,這些軟件上手門檻極其高。

DeepMusic劉曉光:深度解讀AIGC音樂創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

音樂人群是這樣的,那商業(yè)是怎么發(fā)展的呢?

在這個領(lǐng)域,我們可以看到唱片公司、經(jīng)紀(jì)公司等行業(yè)參與者。他們的主要任務(wù)是簽約頭部音樂制作人,并從音樂人那里獲取原創(chuàng)歌曲,然后將這些歌曲制作并發(fā)布到主要的音樂平臺,如騰訊音樂、網(wǎng)易云音樂等。

這些平臺是這個行業(yè)的甲方公司,其年收入約為500億人民幣。其中,約35%的收入來自會員費(fèi),即用戶每年支付的訂閱費(fèi)用,已經(jīng)超過億人;另外55%的收入則來自用戶產(chǎn)生的娛樂消費(fèi),還有10%來自廣告。

這500億的終端收入中,大約有100億會被分配給音樂創(chuàng)作者和唱片公司。而唱片公司則通過播放占比分成的方式來分配收入,即根據(jù)某首歌的播放量在中國整體音樂聽眾中的占比來確定分成比例。

音樂產(chǎn)業(yè)是一個極度頭部集中的行業(yè),以周杰倫的播放占比為例,其歌曲在中國整體音樂市場中的占比為5.6%。這意味著大約每20個人中就有1個在聽周杰倫的歌曲。

我認(rèn)為外圈的音樂商業(yè)是頭部集中的,商業(yè)模式已經(jīng)相對成熟或者問題已經(jīng)基本得到解決。

二、AIGC打破音樂制作高成本限制,音頻模型引領(lǐng)音樂生產(chǎn)工具3.0時代

AIGC的主要目標(biāo)是解決音樂領(lǐng)域中的中間環(huán)節(jié)問題。

我們注意到,在中級階段的音樂實(shí)踐者中,缺乏適合他們進(jìn)行交互式學(xué)習(xí)和成長的優(yōu)質(zhì)產(chǎn)品。而對于深度實(shí)踐者,也缺乏能夠幫助他們提升技能的優(yōu)秀軟件。音樂人在創(chuàng)作音樂時使用Word和錄音機(jī)可能存在一些問題。即使他們用這些工具創(chuàng)作出作品,交給音樂制作人后,仍需要大量的重復(fù)工作才能進(jìn)一步處理。

我們認(rèn)為,AIGC音樂領(lǐng)域的目標(biāo),實(shí)際上是服務(wù)大約全球總?cè)丝诘?0%的音樂實(shí)踐者。

可以發(fā)現(xiàn),盡管中國可能有30%到40%的孩子在小學(xué)時學(xué)習(xí)音樂,但為什么他們大后和音樂商業(yè)所需的人才不匹配呢?這是因?yàn)樵谖覀兊囊魳方逃校⒅氐氖腔A(chǔ)樂理知識、唱和聲、曲式分析以及器樂培訓(xùn)等,這些最終會讓學(xué)生變成演奏機(jī)器。

然而,在真正的音樂實(shí)踐、娛樂和商業(yè)環(huán)境中,所需的是作詞、作曲、編曲、錄音、演唱以及后期處理等音樂生產(chǎn)過程的技能。作詞和作曲相對容易理解,編曲稱作伴奏。

伴奏是指歌曲中的聲音,如鼓、吉他、貝斯等樂器。要想精通編曲,需要克服的門檻非常高?,F(xiàn)在,如果我有音樂興趣,想要將其實(shí)現(xiàn)成一個成品,就會發(fā)現(xiàn),這個過程既困難又昂貴,而且進(jìn)展緩慢。

接下來,我將分享一下音樂生產(chǎn)工具在過去40年中的演變。

DeepMusic劉曉光:深度解讀AIGC音樂創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

首先是2000年以前,即音樂生產(chǎn)工具1.0時代,幾乎所有的音樂制作都依賴硬件錄音,那時的音樂作品很有情調(diào),因?yàn)橹挥凶顚I(yè)的音樂人才有機(jī)會參與錄音過程。

第二個階段,音樂生產(chǎn)工具2.0時代。蘋果、雅馬哈、Avid幾家公司推出了一個軟件——數(shù)字音樂工作站,這種軟件在電腦上運(yùn)行,門檻極高,但功能卻十分強(qiáng)大,能夠模擬鋼琴、吉他等傳統(tǒng)樂器的聲音,在電腦上使用MIDI和采樣器。

MIDI是一種按時序記錄聲音高低的數(shù)字協(xié)議,比如我在3分零626秒彈奏了一個音符,它會記錄這個音符的音高和時刻。通過記錄一系列這樣的數(shù)據(jù),最終可以用電腦合成出完整的音樂作品。

進(jìn)入2.5時代,音樂產(chǎn)業(yè)經(jīng)歷了一次重大變革。騰訊音樂娛樂集團(tuán)推動了音樂娛樂的商業(yè)化,使得這個行業(yè)的收入達(dá)到了500億,并讓音樂人真正能夠賺到錢。

與此同時,音樂生產(chǎn)工具也逐漸實(shí)現(xiàn)了移動化。例如,有一種工具可以在電腦和手機(jī)上使用,并且功能也變得越來越強(qiáng)大。同時,可以利用AI生成數(shù)字化的信號。

正在到來的就是音樂生產(chǎn)工具3.0——音頻模型,這類工具類似于語音的TTS模型。

在音樂領(lǐng)域,AI的生產(chǎn)方向大致可以分為兩類:音頻方案音樂符號方案

在音頻方案中,我們公司于2018年開始專注于音樂AI。當(dāng)時音頻模型尚未成熟,基本上是通過將數(shù)以百萬計的歌曲進(jìn)行標(biāo)記,并將自然語言模型與音頻模型對應(yīng)起來,以便通過一些Prompt來生成音頻。

在那個時期,由于音頻模型尚未成熟,大多數(shù)AI公司致力于音樂符號方案。

音樂符號方案的核心思想是從我們平時聽到的歌曲中提取音樂信息,包括歌詞、旋律、演唱方式、和弦進(jìn)程、使用的樂器以及樂器的音色等,然后對這些信息進(jìn)行數(shù)字化標(biāo)注。通過對這些音樂符號進(jìn)行訓(xùn)練,可以生成新的音樂符號。最后,通過傳統(tǒng)的音樂制作流程,將這些音樂符號渲染成音頻。

這個過程涉及到三個主要技術(shù)領(lǐng)域:首先是音樂信息提取技術(shù),通常用于聽歌識曲等功能;其次是AI作詞、AI作曲、AI編曲等技術(shù),用于生成音樂符號;最終,將符號轉(zhuǎn)化為音頻的過程,就是以往數(shù)字音樂工作站所做的工作。

三、推演爆款音樂生成產(chǎn)品的技術(shù)方案,打造一站式音樂工作站

最近大家可能注意到Suno和Udio等產(chǎn)品頻繁出現(xiàn)在屏幕上,但實(shí)際上技術(shù)突破來自于MusicLMMusicGen。

這兩者是最早能夠通過自然語言與音頻進(jìn)行對位,并逐幀生成音頻的技術(shù),這是一種顛覆性的進(jìn)展,首次出現(xiàn)在前年年底到去年年初。而后出現(xiàn)的Suno和Udio則采用了音頻方案,如網(wǎng)易天音,還有例如天工SkyMusic,他們采用的是符號方案。

DeepMusic劉曉光:深度解讀AIGC音樂創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

音頻方案和符號方案各有特點(diǎn)。音頻方案是端到端模型,使得生成的音樂聽起來更貼近真實(shí)、完整,融合度更高。而符號模型則能夠控制生成內(nèi)容的各個方面。我們認(rèn)為未來這兩種模型會融合發(fā)展。

MusicLM和MusicGen大致能夠生成的自然語言Prompt背景音樂作品,會有一個顯著的前景旋律,這對于推斷它們的技術(shù)實(shí)現(xiàn)方式將會非常有幫助,能判斷出這些作品都是基于音頻方案生成的結(jié)果。符號方案生成的音頻聽起來可能音質(zhì)更高,但伴奏和人聲的融合程度沒那么好,純BGM大概就是這種效果。

符號方案和音頻方案使用了不同的技術(shù)棧。

在我們的符號方案中,我們采用了領(lǐng)先的算法。我們使用一個標(biāo)注工具來處理數(shù)據(jù)。以大家耳熟能詳?shù)摹镀呃锵恪窞槔?,在我們的?biāo)注工具中,頂部的藍(lán)色波形代表音頻文件,我們需要標(biāo)注其中的關(guān)鍵樂理信息。

DeepMusic劉曉光:深度解讀AIGC音樂創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

首先,自動識別出這些藍(lán)色線,將它們與上方的11、12、13小節(jié)線對齊;接下來,標(biāo)注旋律、歌詞、和弦、段落以及調(diào)式等音樂中重要的樂理信息;一旦完成了這些標(biāo)注,就可以使用單模態(tài)生成旋律,生成旋律和歌詞的對位,或者根據(jù)輸入的歌詞生成伴奏和旋律。有了大量這樣的數(shù)據(jù),我們就可以開發(fā)出生成式AI模型。

由于音頻方案的火爆產(chǎn)品并未公開其具體實(shí)現(xiàn)方式,我們通過大量實(shí)驗(yàn)進(jìn)行推測,和大家分享我們對AI和音樂結(jié)合的認(rèn)知。我們認(rèn)為這種生產(chǎn)方式顛覆了我們對智能技術(shù)的認(rèn)知。

最近,音頻模型產(chǎn)品火了起來。我們看到這些產(chǎn)品的體驗(yàn)大致是這樣的:輸入一段歌詞和一些Prompt,就能生成完整音樂。

根據(jù)我們的推斷,它的算法可能是這樣的:首先,有了一批音樂數(shù)據(jù),同時標(biāo)注了對應(yīng)的歌詞。這種數(shù)據(jù)在QQ音樂等平臺上都可以直接獲取。另外,現(xiàn)在已經(jīng)有一項(xiàng)成熟的技術(shù)叫做人聲伴奏分離,可以將音頻中的人聲和伴奏分離開來。

現(xiàn)場演示的人聲里帶有和聲。在訓(xùn)練時,我現(xiàn)在只看到前三行,大概是將音頻進(jìn)行切片,然后通過一個分離的BGM和其中標(biāo)注的歌詞來生成最終完整的音樂。這是模型大概的工作原理。

因此,我們最終看到的是,輸入一個Prompt,它會從一個BGM庫中找到與之最匹配的音頻片段,然后根據(jù)輸入的歌詞或者想要的樂器,在原始音頻上疊加一個人聲模型。它們對音樂的理解與我們不太一樣,它們將音樂理解為一個人聽著伴奏,朗讀歌詞的TTS模型。整個過程是一個端到端的模型,所以在整個音樂中,伴奏和人聲的融合效果非常好。

四、一站式低門檻音樂創(chuàng)編軟件“和弦派”:解決可控性、兼容性、跨平臺三大挑戰(zhàn)

我剛剛分享了一下音樂行業(yè)的整體情況,以及音頻模型、符號模型等的大致工作原理?,F(xiàn)在我想分享一下我們自己的產(chǎn)品,叫做“和弦派”。它是一個移動端一站式的低門檻音樂創(chuàng)編軟件,AI在其中發(fā)揮了很大的作用。我們希望通過這個產(chǎn)品解決幾個問題。

第一,我們希望AI是可控的。但是在音樂中,我們重新定義了控制的方式。例如,我們現(xiàn)在談?wù)撊绾蚊枋鲆魳分R,大多數(shù)人可能首先想到的是五線譜。然而,五線譜是兩百年前的產(chǎn)物,當(dāng)時還沒有留聲機(jī)。五線譜的目的是記錄音樂應(yīng)該如何演奏,而不是現(xiàn)在流行音樂中常見的記錄方式。我們希望音樂有一種更直觀的控制方式。

第二,過去我們在創(chuàng)作音樂時,可能會用Word來寫歌詞,用錄音機(jī)來錄制曲子。我們希望能夠?qū)⑦@些功能整合到一個平臺上,實(shí)現(xiàn)一站式的音樂創(chuàng)作體驗(yàn)。另外,在制作人和音樂人這個行業(yè),每個人購買的音源可能不同,這就導(dǎo)致了互相之間的工程文件無法兼容的問題。我們希望能夠解決這個問題,讓不同音源之間的工程文件能夠互相兼容。

第三,我們希望能夠在手機(jī)上完成創(chuàng)作音樂這件事情,而不是打開電腦。然而,在手機(jī)上進(jìn)行音樂創(chuàng)作確實(shí)存在很大的困難。例如,在安卓系統(tǒng)下,實(shí)際上沒有一個很好的音頻引擎來支持這項(xiàng)開發(fā)工作。因此,我們花了很多時間去開發(fā)跨平臺的音頻引擎,以解決這個問題。

我們的整體設(shè)計思路如下,這是音樂功能譜。首先,我們意識到這個產(chǎn)品并不是面向全人類的,而是針對人類中大約10%的用戶。功能譜基本上是音樂愛好者需要了解的內(nèi)容,其中包括段落和和弦,告訴樂手如何演奏;還包括旋律和歌詞,告訴歌手如何演唱。

DeepMusic劉曉光:深度解讀AIGC音樂創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

流行音樂并不那么復(fù)雜,通常只包含一個伴奏和一個人聲。人聲部分由數(shù)字表示,例如“Do、Re、Mi、Do、Re、Mi”,并附帶歌詞,以指導(dǎo)歌手的演唱。而剩下的段落和和弦則指導(dǎo)所有樂器如何演奏。簡而言之,就是這兩部分構(gòu)成了音樂功能譜。

我們通過創(chuàng)作功能譜或者采用其他方法呈現(xiàn),創(chuàng)造了音樂。將功能譜轉(zhuǎn)化為聲音,這是音樂創(chuàng)作;將功能譜變成我們能聽到的音樂,這是音樂制作。這個過程最終形成了我們的產(chǎn)品——和弦派。

在和弦派中,我們提供了一個功能譜的編輯頁面。你可以隨意輸入和弦、旋律和歌詞。通過AI輔助編曲功能,你可以生成伴奏;通過AI的歌聲合成功能,你可以讓這些輸入內(nèi)容被演唱出來。

借助大量的詞、曲和和弦對位數(shù)據(jù),我們能實(shí)現(xiàn)旋律生成和弦、和弦生成旋律等功能。這意味著你可以輸入一段歌詞,我們就能為你生成一首完整的歌曲;或者,你哼唱一段旋律,我們能為你配上和弦和伴奏。這一切都可以在一個軟件中一站式完成。

針對不同的用戶,我們提供了各種交互式體驗(yàn)。例如,對于中度實(shí)踐用戶,基于大型語言模型的理解能力,能生成歌詞,并根據(jù)這些歌詞生成音樂的其他信息;對于深度實(shí)踐用戶,他們通常已經(jīng)理解了和弦的概念,但可能對和弦的具體細(xì)節(jié)不夠了解;對于更深度的音樂人,他們可以編輯所有的和弦,調(diào)整音高,并修改歌詞,以快速創(chuàng)建所需的BGM。

我們可以關(guān)閉吉他軌道,換成電吉他,并調(diào)整演奏方式,即使不懂吉他也能自由創(chuàng)作。我們已經(jīng)有許多用戶通過這種方式制作出了不錯的作品,其中有些甚至深深打動了我。

我們的整體產(chǎn)品都能在一個手機(jī)軟件里一站式輸出。我們堅定地致力于移動端產(chǎn)品,因?yàn)槲覀兿嘈旁S多00后和05后的孩子并不太習(xí)慣使用電腦。我們預(yù)見未來的音樂制作大部分流程都將在手機(jī)上完成。只有在最后需要進(jìn)行精細(xì)調(diào)整時,才會轉(zhuǎn)移到電腦上進(jìn)行。

五、2025或?qū)崿F(xiàn)AI生成伴奏,上傳30秒人聲就能用自己聲音演唱歌曲

讓我們來談?wù)勎覀儗σ魳樊a(chǎn)業(yè)未來發(fā)展的看法。

首先,我們認(rèn)為在音樂消費(fèi)端,AI和大數(shù)據(jù)等技術(shù)的發(fā)展不會帶來太大的變化。因?yàn)橐魳沸袠I(yè)本身就是一個供大于求的行業(yè),AI的出現(xiàn)雖然提高了生產(chǎn)效率,但并不會對行業(yè)生態(tài)造成巨大的影響。然而,在音樂生產(chǎn)端,我們相信將會有越來越多的人參與其中,進(jìn)行實(shí)踐,從中獲得樂趣。

DeepMusic劉曉光:深度解讀AIGC音樂創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

新的音頻模型可以通過一個簡單的Prompt生成出完整的BGM,而TTS模型可以生成完整的歌曲。接下來,我們可以預(yù)見,人們將能夠自己制作個性化的BGM,并在其上填寫歌詞。每一句歌詞都可以重新編輯,例如,如果覺得第二句不夠理想,就可以重新編寫。

與此同時,音量調(diào)整也將變得更加靈活。我們相信,在今年年底,不止一家公司將推出這樣的產(chǎn)品。到那時,音樂制作過程將變得更加普及化。音樂人們可能會首先選擇一個自己喜歡的BGM,然后利用語言模型為歌詞尋找靈感,并逐句進(jìn)行修改和嘗試。最終,他們可以按照傳統(tǒng)的錄音和音樂制作工作流程完成作品,并進(jìn)行發(fā)布。

明年大概就能實(shí)現(xiàn)自然語言生成伴奏的功能,而且音質(zhì)應(yīng)該也會相當(dāng)不錯。你只需上傳大約30秒的人聲素材,就能夠用你自己的聲音來演唱歌曲。音質(zhì)會達(dá)到基本可用的水平。

到那時,我們就可以摒棄傳統(tǒng)的錄音或者“MIDI+采樣器”的工作流程,轉(zhuǎn)而使用“BGM+歌詞”的輸入方式。我們只需要進(jìn)行簡單的粗顆粒度修改,利用音頻模型調(diào)整音樂,直到滿意為止,然后就可以直接發(fā)行作品。

DeepMusic劉曉光:深度解讀AIGC音樂創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

那時我們對于音樂制作工具的理解可能會回歸到我設(shè)定一首歌,包括前奏、間奏和副歌等部分,然后在其中輸入歌詞。我們可以將歌曲分割成不同的區(qū)域,并在每個區(qū)域選擇不同的樂器庫。用戶可以通過拖拽樂器到相應(yīng)的區(qū)域,并指示該樂器的演奏方式,最終就能夠生成整首音樂。

最終實(shí)現(xiàn)這樣的體驗(yàn),必然需要結(jié)合錄音、MIDI、采樣器以及音頻模型等技術(shù)。國內(nèi)在音頻模型方面可能會有一些差距,但我們堅信,對于未來面向音樂人和音樂愛好者的產(chǎn)品,我們所做的積累毫無疑問是有意義的。

以上是劉曉光演講內(nèi)容的完整整理。