智東西(公眾號(hào):zhidxcom)
作者 | 程茜
編輯 | 漠影

讓《長安的荔枝》男主角李善德親自推薦自己的電視劇是什么體驗(yàn)?

這段讓人難辨真假的音頻并非真正出自李善德之口,其應(yīng)用的正是科大訊飛近期升級(jí)的聲音復(fù)刻技術(shù),李善德痛斥右相的段落中,聲調(diào)拔高,語速加快,聲音復(fù)刻技術(shù)呈現(xiàn)的李善德推薦《長安的荔枝》音頻中,不僅將聲線高度契合,而且把語音中包含的情緒也復(fù)刻得非常到位。值得注意的是,這段AI“李善德”的學(xué)習(xí)素材僅需不到10s

去年,訊飛星火App的小星暢聊里就上線了一句話聲音復(fù)刻功能,如今,訊飛星火新版聲音復(fù)刻功能也已更新,人人都可擁有同聲線的數(shù)字分身。同時(shí),新一代的聲音復(fù)刻能力也已正式上線訊飛開放平臺(tái),開發(fā)者可通過API進(jìn)行接入和調(diào)用。

在App中創(chuàng)建聲音,用戶只需要選擇性別,朗讀一句話,就可以快速生成自定義聲音,并與之進(jìn)行對(duì)話。

“AI語音之王”科大訊飛聲音復(fù)刻技術(shù)大升級(jí),成品人機(jī)難辨!

作為AI語音王者,科大訊飛在語音技術(shù)領(lǐng)域的深耕,以及在智能駕駛、教育等人機(jī)交互場景的廣泛應(yīng)用,已經(jīng)使其成為全球語音領(lǐng)域的頭部企業(yè),其語音相關(guān)項(xiàng)目不僅兩次獲得國內(nèi)知識(shí)產(chǎn)權(quán)領(lǐng)域的最高獎(jiǎng)項(xiàng)中國專利金獎(jiǎng),同時(shí)還斬獲國家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。

在這一背景下,科大訊飛聲音復(fù)刻技術(shù)的背后到底有哪些黑科技?語音技術(shù)將帶給科技行業(yè)什么樣的想象空間?智東西將從訊飛星火App的相關(guān)功能體驗(yàn)出發(fā),找到這些問題的答案。

一、秒級(jí)自定義AI發(fā)音人,蠟筆小新、哪吒跨時(shí)空交流

如今更貼近人類日常交流的語音交互模式,幾乎已經(jīng)成為聊天機(jī)器人的必備功能。

訊飛星火App的語音通話功能中,不僅支持其內(nèi)置的14位發(fā)音人與用戶流暢對(duì)話,還可以通過一句話創(chuàng)建屬于自己的發(fā)音人。

可以看到,App中已經(jīng)預(yù)設(shè)了14個(gè)發(fā)音人,包含普通話、英文、方言、日語、俄語等多種語音包。

“AI語音之王”科大訊飛聲音復(fù)刻技術(shù)大升級(jí),成品人機(jī)難辨!

想要自己創(chuàng)建發(fā)音人的過程也極為簡單,用戶只需選擇性別,然后根據(jù)提示朗讀屏幕上的一句話,等待幾秒鐘就能創(chuàng)建成功,同時(shí)為了讓其更符合用戶的使用習(xí)慣,還能添加相應(yīng)人設(shè)。

下面有幾個(gè)案例來感受一下一句話聲音復(fù)刻技術(shù)的驚艷效果,用這項(xiàng)技術(shù)對(duì)用戶熟知的影視劇角色、動(dòng)漫人物聲音進(jìn)行了復(fù)刻,通過對(duì)比,我們可以更為直觀地感受到其聲音合成的相似度與準(zhǔn)確度。

科大訊飛的聲音復(fù)刻技術(shù)還讓兩大經(jīng)典影視劇中的甄嬛和佟掌柜來了一場世紀(jì)交流,當(dāng)AI用《甄嬛傳》中甄嬛的復(fù)刻聲線說出《武林外傳》佟掌柜的經(jīng)典臺(tái)詞時(shí),僅需不到6s的音頻即可瞬間讓《武林外傳》資深觀眾來了一波穿越。

原音頻:

聲音復(fù)刻效果:

其合成音頻中,不僅復(fù)刻了甄嬛的聲線,語氣也十分平緩,訴說過程銜接自然流暢。

第三是動(dòng)漫形象,基于科大訊飛的聲音復(fù)刻技術(shù),哪吒和蠟筆小新實(shí)現(xiàn)了跨時(shí)空交流。

通過不到7s的音頻素材進(jìn)行學(xué)習(xí),就可以復(fù)刻蠟筆小新的聲音,并讓其準(zhǔn)確說出哪吒的經(jīng)典打油詩。

原音頻:

聲音復(fù)刻效果:

同時(shí),哪吒也可以開口說蠟筆小新的經(jīng)典臺(tái)詞,與其寵物小白隔空交流,復(fù)刻的音頻中,既保留了哪吒的獨(dú)特聲線,還有其特殊的尾音上揚(yáng)特征。

原音頻:

聲音復(fù)刻效果:

這些音頻的實(shí)現(xiàn)效果,有的僅需要原角色不到5s的音頻就能實(shí)現(xiàn),且可以看出上面幾段音頻都沒有出現(xiàn)明顯的卡頓,還復(fù)刻了聲調(diào)上揚(yáng)、語速、說話節(jié)奏等細(xì)微的特征。

二、從音色到停頓、發(fā)音流暢自然,打造三階段層次化語音建??蚣?/strong>

對(duì)于這些深入人心的影視角色,用戶在一些更為細(xì)節(jié)的發(fā)音特征上或許感知并不是很強(qiáng)烈,但在訊飛星火App自定義創(chuàng)建聲音的場景中,用戶對(duì)發(fā)音人復(fù)刻效果的要求更高,這對(duì)聲音復(fù)刻功能提出了更大挑戰(zhàn)。

因此想要實(shí)現(xiàn)“一句話聲音復(fù)刻”的背后,需要面臨三大關(guān)鍵難題:如何從一句話中精準(zhǔn)提煉用戶發(fā)音的多種特性、如何保證聲音相似、如何準(zhǔn)確還原用戶的停頓、發(fā)聲、重音習(xí)慣以及口癖等。

在此基礎(chǔ)上,科大訊飛為個(gè)性化的語音合成打造了“三階段層次化語音建??蚣堋保噲D將用戶輸入一句話音頻的各種聲音信息都捕捉到位。

具體來看,該框架具體分為三個(gè)階段,通過星火底座大模型精確捕捉發(fā)音規(guī)律和韻律特征、在音色恢復(fù)階段解耦并重構(gòu)聲學(xué)特征、通過聲碼器恢復(fù)高保真波形。

傳統(tǒng)聲音復(fù)刻技術(shù)往往需要數(shù)小時(shí)甚至數(shù)十小時(shí)語音樣本進(jìn)行訓(xùn)練,而基于星火語音大模型底座能力,其可以快速從短時(shí)間音頻中提取語音中的基礎(chǔ)元素。

其第二個(gè)階段的本質(zhì)正是通過將語音的音色屬性從復(fù)雜的混合信號(hào)中剝離出來,并按照目標(biāo)需求重新組合關(guān)鍵特征,以提高音色還原的準(zhǔn)確性。

第三個(gè)階段中的高保真波形恢復(fù),能夠盡可能還原原始音頻的時(shí)域細(xì)節(jié)、頻譜特征和動(dòng)態(tài)范圍。

據(jù)了解,這套語音建??蚣芡黄普Z義表征,采用mel VQ-AE模型(Mel頻譜向量量化自編碼器)結(jié)合語音自監(jiān)督預(yù)訓(xùn)練編碼器,并引入音色最小互信息約束,能解耦出音色無關(guān)的離散語義token,實(shí)現(xiàn)了發(fā)音內(nèi)容與音色特征的可控分離,并可以提升語義大模型的建模穩(wěn)定性。

同時(shí),讓合成聲音更為自然還有一大關(guān)鍵是,發(fā)音需流暢且音色一致,因此在音色解耦表征的基礎(chǔ)上,科大訊飛進(jìn)一步通過音色增強(qiáng)以及強(qiáng)化學(xué)習(xí),來實(shí)現(xiàn)聲音復(fù)刻的人機(jī)難辨。

其中,音色增強(qiáng)是指在聲學(xué)模型中,研究人員融合全局聲紋嵌入與局部幀級(jí)音色編碼,提取細(xì)粒度音色特征,并構(gòu)建聲紋空間語義一致性損失函數(shù),提升音色恢復(fù)的相似度;主要是通過語音魯棒性評(píng)價(jià)模型和人工標(biāo)注構(gòu)建偏好數(shù)據(jù)集,采用基于DPO的強(qiáng)化學(xué)習(xí)策略提升合成語音的穩(wěn)定性和自然流暢度。

在這些綜合作用下,科大訊飛的語音合成技術(shù)已經(jīng)可以做到,只需一句話錄音就能完整捕捉用戶喉腔共鳴、口音特點(diǎn)、氣息流轉(zhuǎn)等發(fā)音特征,并精準(zhǔn)還原用戶的停頓習(xí)慣、情感起伏和呼吸節(jié)奏。

基于此才能達(dá)到真人難以區(qū)分的復(fù)刻效果,為車載語音交互系統(tǒng)、個(gè)性化智能客服、智能體交互的應(yīng)用場景打開更大想象空間。

三、多次拿下業(yè)界國家級(jí)大獎(jiǎng),橫縱布局加速語音技術(shù)落地

一直以來,語音都是人類最自然的交流方式,因此業(yè)界一直圍繞著模擬人類對(duì)話過程、使機(jī)器能夠理解并回應(yīng)人類語音指令進(jìn)行探索。

作為國內(nèi)AI領(lǐng)域國家隊(duì),科大訊飛早在2011年就肩負(fù)起語音及語言處理國家工程實(shí)驗(yàn)室(后升級(jí)為工程研究中心)的重任,并成為全球語音技術(shù)領(lǐng)域的頭部玩家。

時(shí)至今日,科大訊飛在語音領(lǐng)域已經(jīng)碩果累累,最直觀的數(shù)據(jù)就是,本月,科大訊飛憑借“基于時(shí)延估計(jì)的回聲消除方法及裝置”專利入選第二十五屆中國專利金獎(jiǎng)項(xiàng)目名單,這也是其第二次獲得這一國內(nèi)知識(shí)產(chǎn)權(quán)領(lǐng)域的最高獎(jiǎng)項(xiàng),同時(shí)也是安徽省唯一一家兩次獲得中國專利金獎(jiǎng)的單位。

此外,去年其“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目還斬獲國家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)

“AI語音之王”科大訊飛聲音復(fù)刻技術(shù)大升級(jí),成品人機(jī)難辨!

在技術(shù)深耕之下,科大訊飛不僅實(shí)現(xiàn)了在語音識(shí)別、語音合成領(lǐng)域的準(zhǔn)確度、識(shí)別語種、相似度等各項(xiàng)性能的縱向提升,還橫向拓寬了語音技術(shù)的應(yīng)用場景,從識(shí)別、翻譯到合成,以及智能駕駛、智能客服、教育等諸多場景。

去年9月,科大訊飛在語音識(shí)別領(lǐng)域的賽事CHiME-8奪冠,并實(shí)現(xiàn)五連冠。語音識(shí)別首次實(shí)現(xiàn)全國地級(jí)市方言全覆蓋,包括288個(gè)地市202種方言。

此前科大訊飛正式發(fā)布的星火語音大模型,實(shí)現(xiàn)74個(gè)語種、方言免切換對(duì)話;且根據(jù)真實(shí)業(yè)務(wù)構(gòu)建的語音輸入場景測試集,星火語音大模型37個(gè)語種語音識(shí)別效果領(lǐng)先OpenAI發(fā)布的開源語音識(shí)別模型Whisper-V3.5。

同時(shí)其能在強(qiáng)干擾場景下實(shí)現(xiàn)精準(zhǔn)語音識(shí)別,在兩人疊混場景、三人疊混場景中和-5dB高噪音場景中的語音轉(zhuǎn)寫效果遠(yuǎn)超Whisper和Gemini。

在此基礎(chǔ)上,星火語音大模型已經(jīng)深度運(yùn)用在各種人機(jī)交互場景中,如智能座艙、教育等諸多領(lǐng)域。

可見語音技術(shù)的攻關(guān)非一日之功,在技術(shù)深耕與場景應(yīng)用上的雙重發(fā)力,使得科大訊飛的語音技術(shù)正在全球扮演著愈發(fā)重要的角色。

結(jié)語:更自然流暢的語音交互,正擴(kuò)寬AI應(yīng)用場景

語音交互使人們可以通過說話來操作設(shè)備和獲取信息,無需手動(dòng)輸入或操作復(fù)雜的界面。如今隨著技術(shù)的發(fā)展,語音識(shí)別和合成技術(shù)為聊天機(jī)器人等AI工具賦予了自然交互能力,使其與用戶的交流更加流暢。

與此同時(shí),企業(yè)也在不斷探索新的算法和模型,在突破語音識(shí)別、合成準(zhǔn)確率的同時(shí),拓寬其應(yīng)用場景,使得語音與自然語言處理、計(jì)算機(jī)視覺等技術(shù)相互融合,以推動(dòng)AI的發(fā)展,而科大訊飛在技術(shù)融合與場景落地方面的積累,已展現(xiàn)出顯著的競爭力。