午夜福利伦理片在线观看,av麻豆诱惑在线观看

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

綁定手機(jī)號(hào)

確認(rèn)綁定

程茜

標(biāo)簽

蘋果大眾 5G 百度高通騰訊三星通用谷歌智東西華為 iPhone 英特爾 IDx 小米微軟 360

“AI語音之王”科大訊飛聲音復(fù)刻技術(shù)大升級(jí)，成品人機(jī)難辨！

智東西（公眾號(hào)：zhidxcom）
作者 | 程茜
編輯 | 漠影

讓《長安的荔枝》男主角李善德親自推薦自己的電視劇是什么體驗(yàn)？

這段讓人難辨真假的音頻并非真正出自李善德之口，其應(yīng)用的正是科大訊飛近期升級(jí)的聲音復(fù)刻技術(shù)，李善德痛斥右相的段落中，聲調(diào)拔高，語速加快，聲音復(fù)刻技術(shù)呈現(xiàn)的李善德推薦《長安的荔枝》音頻中，不僅將聲線高度契合，而且把語音中包含的情緒也復(fù)刻得非常到位。值得注意的是，這段AI“李善德”的學(xué)習(xí)素材僅需不到10s。

去年，訊飛星火App的小星暢聊里就上線了一句話聲音復(fù)刻功能，如今，訊飛星火新版聲音復(fù)刻功能也已更新，人人都可擁有同聲線的數(shù)字分身。同時(shí)，新一代的聲音復(fù)刻能力也已正式上線訊飛開放平臺(tái)，開發(fā)者可通過API進(jìn)行接入和調(diào)用。

在App中創(chuàng)建聲音，用戶只需要選擇性別，朗讀一句話，就可以快速生成自定義聲音，并與之進(jìn)行對(duì)話。

“AI語音之王”科大訊飛聲音復(fù)刻技術(shù)大升級(jí)，成品人機(jī)難辨！

作為AI語音王者，科大訊飛在語音技術(shù)領(lǐng)域的深耕，以及在智能駕駛、教育等人機(jī)交互場景的廣泛應(yīng)用，已經(jīng)使其成為全球語音領(lǐng)域的頭部企業(yè)，其語音相關(guān)項(xiàng)目不僅兩次獲得國內(nèi)知識(shí)產(chǎn)權(quán)領(lǐng)域的最高獎(jiǎng)項(xiàng)中國專利金獎(jiǎng)，同時(shí)還斬獲國家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。

在這一背景下，科大訊飛聲音復(fù)刻技術(shù)的背后到底有哪些黑科技？語音技術(shù)將帶給科技行業(yè)什么樣的想象空間？智東西將從訊飛星火App的相關(guān)功能體驗(yàn)出發(fā)，找到這些問題的答案。

一、秒級(jí)自定義AI發(fā)音人，蠟筆小新、哪吒跨時(shí)空交流

如今更貼近人類日常交流的語音交互模式，幾乎已經(jīng)成為聊天機(jī)器人的必備功能。

訊飛星火App的語音通話功能中，不僅支持其內(nèi)置的14位發(fā)音人與用戶流暢對(duì)話，還可以通過一句話創(chuàng)建屬于自己的發(fā)音人。

可以看到，App中已經(jīng)預(yù)設(shè)了14個(gè)發(fā)音人，包含普通話、英文、方言、日語、俄語等多種語音包。

“AI語音之王”科大訊飛聲音復(fù)刻技術(shù)大升級(jí)，成品人機(jī)難辨！

想要自己創(chuàng)建發(fā)音人的過程也極為簡單，用戶只需選擇性別，然后根據(jù)提示朗讀屏幕上的一句話，等待幾秒鐘就能創(chuàng)建成功，同時(shí)為了讓其更符合用戶的使用習(xí)慣，還能添加相應(yīng)人設(shè)。

下面有幾個(gè)案例來感受一下一句話聲音復(fù)刻技術(shù)的驚艷效果，用這項(xiàng)技術(shù)對(duì)用戶熟知的影視劇角色、動(dòng)漫人物聲音進(jìn)行了復(fù)刻，通過對(duì)比，我們可以更為直觀地感受到其聲音合成的相似度與準(zhǔn)確度。

科大訊飛的聲音復(fù)刻技術(shù)還讓兩大經(jīng)典影視劇中的甄嬛和佟掌柜來了一場世紀(jì)交流，當(dāng)AI用《甄嬛傳》中甄嬛的復(fù)刻聲線說出《武林外傳》佟掌柜的經(jīng)典臺(tái)詞時(shí)，僅需不到6s的音頻即可瞬間讓《武林外傳》資深觀眾來了一波穿越。

原音頻：

聲音復(fù)刻效果：

其合成音頻中，不僅復(fù)刻了甄嬛的聲線，語氣也十分平緩，訴說過程銜接自然流暢。

第三是動(dòng)漫形象，基于科大訊飛的聲音復(fù)刻技術(shù)，哪吒和蠟筆小新實(shí)現(xiàn)了跨時(shí)空交流。

通過不到7s的音頻素材進(jìn)行學(xué)習(xí)，就可以復(fù)刻蠟筆小新的聲音，并讓其準(zhǔn)確說出哪吒的經(jīng)典打油詩。

原音頻：

聲音復(fù)刻效果：

同時(shí)，哪吒也可以開口說蠟筆小新的經(jīng)典臺(tái)詞，與其寵物小白隔空交流，復(fù)刻的音頻中，既保留了哪吒的獨(dú)特聲線，還有其特殊的尾音上揚(yáng)特征。

原音頻：

聲音復(fù)刻效果：

這些音頻的實(shí)現(xiàn)效果，有的僅需要原角色不到5s的音頻就能實(shí)現(xiàn)，且可以看出上面幾段音頻都沒有出現(xiàn)明顯的卡頓，還復(fù)刻了聲調(diào)上揚(yáng)、語速、說話節(jié)奏等細(xì)微的特征。

二、從音色到停頓、發(fā)音流暢自然，打造三階段層次化語音建?？蚣?/strong>

對(duì)于這些深入人心的影視角色，用戶在一些更為細(xì)節(jié)的發(fā)音特征上或許感知并不是很強(qiáng)烈，但在訊飛星火App自定義創(chuàng)建聲音的場景中，用戶對(duì)發(fā)音人復(fù)刻效果的要求更高，這對(duì)聲音復(fù)刻功能提出了更大挑戰(zhàn)。

因此想要實(shí)現(xiàn)“一句話聲音復(fù)刻”的背后，需要面臨三大關(guān)鍵難題：如何從一句話中精準(zhǔn)提煉用戶發(fā)音的多種特性、如何保證聲音相似、如何準(zhǔn)確還原用戶的停頓、發(fā)聲、重音習(xí)慣以及口癖等。

在此基礎(chǔ)上，科大訊飛為個(gè)性化的語音合成打造了“三階段層次化語音建?？蚣堋保噲D將用戶輸入一句話音頻的各種聲音信息都捕捉到位。

具體來看，該框架具體分為三個(gè)階段，通過星火底座大模型精確捕捉發(fā)音規(guī)律和韻律特征、在音色恢復(fù)階段解耦并重構(gòu)聲學(xué)特征、通過聲碼器恢復(fù)高保真波形。

傳統(tǒng)聲音復(fù)刻技術(shù)往往需要數(shù)小時(shí)甚至數(shù)十小時(shí)語音樣本進(jìn)行訓(xùn)練，而基于星火語音大模型底座能力，其可以快速從短時(shí)間音頻中提取語音中的基礎(chǔ)元素。

其第二個(gè)階段的本質(zhì)正是通過將語音的音色屬性從復(fù)雜的混合信號(hào)中剝離出來，并按照目標(biāo)需求重新組合關(guān)鍵特征，以提高音色還原的準(zhǔn)確性。

第三個(gè)階段中的高保真波形恢復(fù)，能夠盡可能還原原始音頻的時(shí)域細(xì)節(jié)、頻譜特征和動(dòng)態(tài)范圍。

據(jù)了解，這套語音建?？蚣芡黄普Z義表征，采用mel VQ-AE模型（Mel頻譜向量量化自編碼器）結(jié)合語音自監(jiān)督預(yù)訓(xùn)練編碼器，并引入音色最小互信息約束，能解耦出音色無關(guān)的離散語義token，實(shí)現(xiàn)了發(fā)音內(nèi)容與音色特征的可控分離，并可以提升語義大模型的建模穩(wěn)定性。

同時(shí)，讓合成聲音更為自然還有一大關(guān)鍵是，發(fā)音需流暢且音色一致，因此在音色解耦表征的基礎(chǔ)上，科大訊飛進(jìn)一步通過音色增強(qiáng)以及強(qiáng)化學(xué)習(xí)，來實(shí)現(xiàn)聲音復(fù)刻的人機(jī)難辨。

其中，音色增強(qiáng)是指在聲學(xué)模型中，研究人員融合全局聲紋嵌入與局部幀級(jí)音色編碼，提取細(xì)粒度音色特征，并構(gòu)建聲紋空間語義一致性損失函數(shù)，提升音色恢復(fù)的相似度；主要是通過語音魯棒性評(píng)價(jià)模型和人工標(biāo)注構(gòu)建偏好數(shù)據(jù)集，采用基于DPO的強(qiáng)化學(xué)習(xí)策略提升合成語音的穩(wěn)定性和自然流暢度。

在這些綜合作用下，科大訊飛的語音合成技術(shù)已經(jīng)可以做到，只需一句話錄音就能完整捕捉用戶喉腔共鳴、口音特點(diǎn)、氣息流轉(zhuǎn)等發(fā)音特征，并精準(zhǔn)還原用戶的停頓習(xí)慣、情感起伏和呼吸節(jié)奏。

基于此才能達(dá)到真人難以區(qū)分的復(fù)刻效果，為車載語音交互系統(tǒng)、個(gè)性化智能客服、智能體交互的應(yīng)用場景打開更大想象空間。

三、多次拿下業(yè)界國家級(jí)大獎(jiǎng)，橫縱布局加速語音技術(shù)落地

一直以來，語音都是人類最自然的交流方式，因此業(yè)界一直圍繞著模擬人類對(duì)話過程、使機(jī)器能夠理解并回應(yīng)人類語音指令進(jìn)行探索。

作為國內(nèi)AI領(lǐng)域國家隊(duì)，科大訊飛早在2011年就肩負(fù)起語音及語言處理國家工程實(shí)驗(yàn)室（后升級(jí)為工程研究中心）的重任，并成為全球語音技術(shù)領(lǐng)域的頭部玩家。

時(shí)至今日，科大訊飛在語音領(lǐng)域已經(jīng)碩果累累，最直觀的數(shù)據(jù)就是，本月，科大訊飛憑借“基于時(shí)延估計(jì)的回聲消除方法及裝置”專利入選第二十五屆中國專利金獎(jiǎng)項(xiàng)目名單，這也是其第二次獲得這一國內(nèi)知識(shí)產(chǎn)權(quán)領(lǐng)域的最高獎(jiǎng)項(xiàng)，同時(shí)也是安徽省唯一一家兩次獲得中國專利金獎(jiǎng)的單位。

此外，去年其“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目還斬獲國家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。

在技術(shù)深耕之下，科大訊飛不僅實(shí)現(xiàn)了在語音識(shí)別、語音合成領(lǐng)域的準(zhǔn)確度、識(shí)別語種、相似度等各項(xiàng)性能的縱向提升，還橫向拓寬了語音技術(shù)的應(yīng)用場景，從識(shí)別、翻譯到合成，以及智能駕駛、智能客服、教育等諸多場景。

去年9月，科大訊飛在語音識(shí)別領(lǐng)域的賽事CHiME-8奪冠，并實(shí)現(xiàn)五連冠。語音識(shí)別首次實(shí)現(xiàn)全國地級(jí)市方言全覆蓋，包括288個(gè)地市202種方言。

此前科大訊飛正式發(fā)布的星火語音大模型，實(shí)現(xiàn)74個(gè)語種、方言免切換對(duì)話；且根據(jù)真實(shí)業(yè)務(wù)構(gòu)建的語音輸入場景測試集，星火語音大模型37個(gè)語種語音識(shí)別效果領(lǐng)先OpenAI發(fā)布的開源語音識(shí)別模型Whisper-V3.5。

同時(shí)其能在強(qiáng)干擾場景下實(shí)現(xiàn)精準(zhǔn)語音識(shí)別，在兩人疊混場景、三人疊混場景中和-5dB高噪音場景中的語音轉(zhuǎn)寫效果遠(yuǎn)超Whisper和Gemini。

在此基礎(chǔ)上，星火語音大模型已經(jīng)深度運(yùn)用在各種人機(jī)交互場景中，如智能座艙、教育等諸多領(lǐng)域。

可見語音技術(shù)的攻關(guān)非一日之功，在技術(shù)深耕與場景應(yīng)用上的雙重發(fā)力，使得科大訊飛的語音技術(shù)正在全球扮演著愈發(fā)重要的角色。

結(jié)語：更自然流暢的語音交互，正擴(kuò)寬AI應(yīng)用場景

語音交互使人們可以通過說話來操作設(shè)備和獲取信息，無需手動(dòng)輸入或操作復(fù)雜的界面。如今隨著技術(shù)的發(fā)展，語音識(shí)別和合成技術(shù)為聊天機(jī)器人等AI工具賦予了自然交互能力，使其與用戶的交流更加流暢。

與此同時(shí)，企業(yè)也在不斷探索新的算法和模型，在突破語音識(shí)別、合成準(zhǔn)確率的同時(shí)，拓寬其應(yīng)用場景，使得語音與自然語言處理、計(jì)算機(jī)視覺等技術(shù)相互融合，以推動(dòng)AI的發(fā)展，而科大訊飛在技術(shù)融合與場景落地方面的積累，已展現(xiàn)出顯著的競爭力。

13

科大訊飛

來, 說兩句

相關(guān)推薦

加載更多...

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、秒級(jí)自定義AI發(fā)音人，蠟筆小新、哪吒跨時(shí)空交流

二、從音色到停頓、發(fā)音流暢自然，打造三階段層次化語音建?？蚣?/strong>

三、多次拿下業(yè)界國家級(jí)大獎(jiǎng)，橫縱布局加速語音技術(shù)落地

結(jié)語：更自然流暢的語音交互，正擴(kuò)寬AI應(yīng)用場景

相關(guān)推薦

一、秒級(jí)自定義AI發(fā)音人，蠟筆小新、哪吒跨時(shí)空交流

二、從音色到停頓、發(fā)音流暢自然，打造三階段層次化語音建?？蚣?/strong>

三、多次拿下業(yè)界國家級(jí)大獎(jiǎng)，橫縱布局加速語音技術(shù)落地

結(jié)語：更自然流暢的語音交互，正擴(kuò)寬AI應(yīng)用場景