智東西(公眾號:zhidxcom)
編 |?王穎

導(dǎo)語:Facebook研發(fā)出可以轉(zhuǎn)換歌聲的AI模型,能在5~30分鐘將一個歌手的聲音轉(zhuǎn)換成另一個歌手的聲音。

智東西4月17日消息,F(xiàn)acebook?AI研究院和以色列特拉維夫大學(xué)的科學(xué)家們發(fā)表了一篇關(guān)于轉(zhuǎn)換歌手歌聲的論文——《無監(jiān)督的歌聲轉(zhuǎn)換》(Unsupervised Singing Voice Conversion)。

這篇論文描述了一種可以直接將一個歌手的聲音轉(zhuǎn)換成另一個歌手聲音的系統(tǒng)。這個系統(tǒng)能夠?qū)σ郧皩ξ从龅竭^的,未分類、未注釋的數(shù)據(jù)執(zhí)行轉(zhuǎn)換。

研究小組稱,他們的模型僅用5到30分鐘就能學(xué)會歌手之間的轉(zhuǎn)換。

最快5分鐘偷“聲”換日!Facebook用AI玩起假唱

一、AI模型如何轉(zhuǎn)換歌聲?

這個AI模型分兩個階段進行培訓(xùn)。首先對每個歌手的樣本分別應(yīng)用一個稱為softmax重構(gòu)損失的數(shù)學(xué)函數(shù)(將神經(jīng)網(wǎng)絡(luò)得到的多個值,進行歸一化處理,使得到的值在[0,1]之間,讓結(jié)果變得可解釋。即可以將結(jié)果看作是概率,某個類別概率越大,將樣本歸為該類別的可能性也就越高)。

然后混合矢量嵌入(即數(shù)值表示)得到新歌手的樣本,訓(xùn)練歌手的樣本生成后再進行反向翻譯步驟。

為了擴充訓(xùn)練數(shù)據(jù)集,研究人員通過倒向播和改變相位來轉(zhuǎn)換音頻剪輯。這種方法將數(shù)據(jù)集的大小增加了四倍。第一次增加的數(shù)據(jù)創(chuàng)造出了一首胡言亂語的歌曲,但仍然可以識別為同一名歌手所演唱,第二次增加的數(shù)據(jù)創(chuàng)造了一個已無法辨認歌手的新歌曲。

二、歌聲轉(zhuǎn)換無需大量訓(xùn)練數(shù)據(jù)

論文作者表示:“我們的方法不以文本或音符為條件,不需要各種歌手之間的平行訓(xùn)練數(shù)據(jù),提供了一定的靈活性以及其他聲音特征,可以讓我們有能力從自己聲音的某些局限中解放出來。”

研究人員介紹,他們的轉(zhuǎn)換方法建立在WaveNet的基礎(chǔ)上,這是一種谷歌開發(fā)的自動編碼器(一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,它可以學(xué)習(xí)到輸入數(shù)據(jù)的隱含特征,同時用學(xué)習(xí)到的新特征可以重構(gòu)出原始輸入數(shù)據(jù)),可以從音頻記錄的波形中生成模型。

它采用了反向翻譯,即將一個數(shù)據(jù)樣本轉(zhuǎn)換為目標樣本(在這種情況下,一個歌手的聲音轉(zhuǎn)換為另一個),然后將其翻譯回來,如果與原文不匹配,則調(diào)整下一次嘗試。

此外,該研究小組的合成樣本,在不輸入歌手真實信息的情況下,能夠使用更接近源歌手的聲音信息,構(gòu)成一個“虛擬身份”。

三、歌聲轉(zhuǎn)換相似度獲好評

在實驗中,研究小組收集了兩組公開的數(shù)據(jù)集——斯坦福大學(xué)的移動表演數(shù)字檔案館(DAMP)語料庫和新加坡國立大學(xué)的成語和口語語料庫(NUS-48E)。

第一組中,他們隨機選擇了5名歌手演唱的10首歌(其中9首被他們用來訓(xùn)練AI系統(tǒng))。?第二組中,他們選擇了12名歌手,每名歌手有4首歌,所有這些歌曲都被用于訓(xùn)練系統(tǒng)。

接下來,他們讓人類評審員以1-5的評分標準來判斷生成的歌聲與目標歌聲的相似性,并使用一個包含分類系統(tǒng)的自動測試來更客觀地評估樣本的質(zhì)量。

評審員對轉(zhuǎn)換后的音頻平均打分約為4分(認為質(zhì)量較好),而自動測試發(fā)現(xiàn),所生成樣本的識別精度度幾乎與重建樣本的識別精度一樣高。

研究人員表示,未來AI歌聲轉(zhuǎn)換模型將可以在存在背景音樂的情況下執(zhí)行歌聲轉(zhuǎn)換。

結(jié)語:AI技術(shù)高速發(fā)展,不斷催生新技術(shù)、新產(chǎn)品誕生

自1956年AI的概念確立以來,人類一直在這個領(lǐng)域進行不斷的探索。

如今,AI在基礎(chǔ)研究和技術(shù)產(chǎn)業(yè)方面都進入了高速發(fā)展時期,也開始越來越多的應(yīng)用于日常生活和工作的各個方面。不斷出現(xiàn)的各種AI機器學(xué)習(xí)模型被應(yīng)用于醫(yī)療、建筑和藝術(shù)等各個領(lǐng)域。

AI正在作為新一輪產(chǎn)業(yè)革命的核心驅(qū)動力,不斷催生新技術(shù)、新產(chǎn)品的誕生。

論文鏈接:https://arxiv.org/abs/1904.06590

原文來自:VentureBeat