欧美日韩免费在线观看专区,中文字幕久久av在线

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

綁定手機(jī)號(hào)

確認(rèn)綁定

韋世瑋

關(guān)注IoT和可穿戴設(shè)備。

標(biāo)簽

華為百度英特爾 5G IDx 騰訊微軟 360 高通大眾蘋果智東西 iPhone 三星谷歌小米通用

日產(chǎn)有聲書500萬(wàn)字，效率碾壓真人配音，這家AI公司如何做到？

智東西（公眾號(hào)：zhidxcom）
作者 | 韋世瑋
編輯 | 心緣

不到半年，僅成立兩年的TTS（語(yǔ)音合成）科技創(chuàng)企倒映有聲又開啟新一輪融資了。

如今，電子書、廣播劇等以聲音為載體的“耳朵經(jīng)濟(jì)”快速興起，其中有些堪比專業(yè)播音員的聲音，其實(shí)是由人工智能（AI）合成出來(lái)的。

相比真人播音員，AI語(yǔ)音合成技術(shù)不僅大大縮短配音時(shí)間，而且更加節(jié)約制作成本和人力成本。以提供語(yǔ)音合成系統(tǒng)及解決方案起家的倒映有聲，即是在做這樣的事。

過(guò)去一年，倒映有聲上線的有聲讀物制作平臺(tái)，其AI主播每日單機(jī)生產(chǎn)速度已超500萬(wàn)字，錄制成本可節(jié)約超90%。今年3月，它與中央廣播電視總臺(tái)音頻客戶端“云聽”APP達(dá)成合作，開展基于央廣總臺(tái)IP和融媒體領(lǐng)域的AI產(chǎn)品研發(fā)，這意味著其業(yè)務(wù)已成功打入“國(guó)家隊(duì)”。

倒映有聲的核心團(tuán)隊(duì)大多出身于百度、微軟、阿里等公司，早期小愛同學(xué)、小度智能音箱、百度語(yǔ)音導(dǎo)航、百度呼叫中心等語(yǔ)音產(chǎn)品底層技術(shù)的構(gòu)建，都少不了這群技術(shù)專家的身影。

基于端到端神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)合成器，倒映有聲自研了情緒和情感控制模塊，在音色模擬、情感展現(xiàn)、定制化服務(wù)、多語(yǔ)種等方面都已達(dá)行業(yè)領(lǐng)先水平。

其融資也在快速推進(jìn)中。此前，這家創(chuàng)企已完成2019年5月300萬(wàn)元的天使輪融資、今年5月千萬(wàn)級(jí)人民幣的Pre-A輪融資，并正在啟動(dòng)A輪融資，目標(biāo)規(guī)模為2000-3000萬(wàn)元，以加快技術(shù)研發(fā)、加速垂直場(chǎng)景的產(chǎn)品落地。

在北京建外SOHO的一間辦公室里，這家團(tuán)隊(duì)規(guī)模不到20人的新興企業(yè)，正醞釀著一場(chǎng)圍繞語(yǔ)音合成領(lǐng)域的新一輪搶位賽。

近日，智東西走進(jìn)他們的北京總部，通過(guò)與其創(chuàng)始團(tuán)隊(duì)展開深入交流，我們了解到更多這家公司的誕生與成長(zhǎng)故事，也看到了不少他們對(duì)AI語(yǔ)音技術(shù)創(chuàng)新的探索和堅(jiān)持。

日產(chǎn)有聲書500萬(wàn)字，效率碾壓真人配音，這家AI公司如何做到？

▲從左到右分別為倒映有聲聯(lián)合創(chuàng)始人兼CTO李驍、倒映有聲創(chuàng)始人兼CEO肖朔、倒映有聲聯(lián)合創(chuàng)始人兼CMO何培成

一、助推百度小米智能音箱誕生，倒映有聲的起航

2013年左右，碩士畢業(yè)于北京航空航天大學(xué)云計(jì)算專業(yè)的肖朔，加入了百度語(yǔ)音技術(shù)部工作。同期加入的，還有剛從英國(guó)帝國(guó)理工大學(xué)人工智能專業(yè)碩士畢業(yè)回國(guó)的李驍。這時(shí)，百度的人工智能（AI）業(yè)務(wù)才剛剛起步。

在百度期間，肖朔與李驍所在的團(tuán)隊(duì)開發(fā)了國(guó)內(nèi)首款情感語(yǔ)言合成系統(tǒng)，并先后研發(fā)了小度智能音箱、百度呼叫中心等產(chǎn)品，給未來(lái)百度智能語(yǔ)音生態(tài)的構(gòu)建和豐富打下了重要基礎(chǔ)。

此外，二人還曾任職于獵豹移動(dòng)投資的AI創(chuàng)企——獵戶星空，在一年時(shí)間里與初創(chuàng)團(tuán)隊(duì)共同參與了小米首款小愛智能音箱的開發(fā)項(xiàng)目。

在這幾年摸爬滾打的過(guò)程中，正是這兩段從0到1構(gòu)建技術(shù)方案的經(jīng)歷，讓肖朔與李驍逐漸產(chǎn)生了創(chuàng)業(yè)的想法。恰好在獵戶星空打拼的經(jīng)歷，也讓他們接觸了許多創(chuàng)意知識(shí)和經(jīng)驗(yàn)，“消除了對(duì)創(chuàng)業(yè)的恐懼感?！?/p>

2019年，隨著百度語(yǔ)音技術(shù)已步入成熟發(fā)展的正軌，其語(yǔ)音技術(shù)戰(zhàn)略重點(diǎn)已不在語(yǔ)音合成，更多是聚焦在語(yǔ)音交互。與此同時(shí)，得益于硬件設(shè)施的完善、算力的增強(qiáng)，以及深度學(xué)習(xí)應(yīng)用場(chǎng)景的進(jìn)一步拓展，曾一直處于早期發(fā)展階段的語(yǔ)音合成技術(shù)終于有了變革性突破。

因此，肖朔和李驍決定離開百度，開啟創(chuàng)業(yè)生涯。2019年3月，倒映有聲于杭州正式注冊(cè)成立，由于跟隨他們一同出來(lái)創(chuàng)業(yè)的還有不少原百度團(tuán)隊(duì)的伙伴，他們也選擇將公司總部“落戶”北京，并在成立兩個(gè)月后拿下300萬(wàn)人民幣的天使輪融資。

肖朔和李驍?shù)膭?chuàng)業(yè)之旅正式起航，倒映有聲的挑戰(zhàn)也才剛剛開始。

日產(chǎn)有聲書500萬(wàn)字，效率碾壓真人配音，這家AI公司如何做到？

二、押注有聲書和AI新聞播報(bào)，語(yǔ)音合成想象空間巨大

不過(guò)，AI語(yǔ)音的賽道如此廣泛，倒映有聲為何堅(jiān)定地選擇語(yǔ)音合成賽道？

在肖朔看來(lái)，語(yǔ)音識(shí)別是最早爆發(fā)的語(yǔ)音技術(shù)，科大訊飛、云知聲等公司已深耕多年，做出了智能醫(yī)療、智能翻譯筆、智能會(huì)議錄入系統(tǒng)等成熟產(chǎn)品，給新玩家留下的市場(chǎng)機(jī)會(huì)并不多。

技術(shù)方面，李驍認(rèn)為目前語(yǔ)音識(shí)別技術(shù)已進(jìn)入了單純比拼識(shí)別準(zhǔn)確率的成熟階段。相比之下，語(yǔ)音合成仍有許多待發(fā)掘的細(xì)分場(chǎng)景，包括廣播劇、有聲書、游戲配音，甚至亞文化中的虛擬偶像等，都是未來(lái)的落地方向，想象空間巨大。

例如，以往有聲書、廣播劇等長(zhǎng)音頻作品在制作過(guò)程中，需要人工對(duì)大量文字腳本進(jìn)行前期畫本、中期配音、后期剪輯等工作，整套流程要花費(fèi)幾個(gè)月時(shí)間，還涉及不少人工成本。但如果使用語(yǔ)音合成技術(shù)，能極大地壓縮各個(gè)環(huán)節(jié)中的時(shí)間和財(cái)務(wù)成本，只需幾天甚至幾個(gè)小時(shí)，就能完成一個(gè)長(zhǎng)音頻作品的制作。

日產(chǎn)有聲書500萬(wàn)字，效率碾壓真人配音，這家AI公司如何做到？

再比如影視和游戲配音中，為了保證用戶的觀影及游戲體驗(yàn)，制作團(tuán)隊(duì)需要花大量時(shí)間篩選適合角色的配音員，同時(shí)還需考慮配音員的休息時(shí)間、續(xù)集聲音的連貫性等，這些也對(duì)制作周期帶來(lái)了許多不確定性。若采用語(yǔ)音合成技術(shù)，只需輸入腳本就能快速生成適合人物形象和作品需求的聲音。

不過(guò)，由于用戶對(duì)語(yǔ)音合成技術(shù)的體感要求非常高，如果技術(shù)無(wú)法達(dá)到媲美真人的效果水平，就很難有用戶愿意付費(fèi)，同時(shí)用戶付費(fèi)的意愿與技術(shù)效果的提高成正比。

“因此語(yǔ)音合成技術(shù)是整個(gè)語(yǔ)音交互技術(shù)鏈路上最后爆發(fā)的賽道，一旦爆發(fā)，市場(chǎng)空間會(huì)更大?！?/strong>肖朔評(píng)價(jià)。

目前，倒映有聲主要以有聲書和AI新聞播報(bào)兩大場(chǎng)景為切入點(diǎn)，為創(chuàng)作者、版權(quán)方和融媒體平臺(tái)等客戶提供高產(chǎn)能、低成本的音頻制作服務(wù)。

有聲書方面，倒映有聲主要提供有聲讀物交易制作平臺(tái)，用戶通過(guò)該平臺(tái)可實(shí)現(xiàn)從覆蓋文稿畫本到配音錄制，再到音頻剪輯的全流程云端制作，還可自主選擇全自動(dòng)/半自動(dòng)制作，以及純AI主播、AI人聲+真人主播錄制等。

例如在前期處理環(huán)節(jié)，平臺(tái)可實(shí)現(xiàn)對(duì)文稿的篩選和清洗，如果是廣播劇級(jí)別的內(nèi)容，還能對(duì)內(nèi)容進(jìn)行深層次的改造，包括配音的角色劃分、性格描述刻畫、情緒風(fēng)格等要素，以改編成適合收聽的文本。

AI新聞播報(bào)方面，倒映有聲與中央廣播電視總臺(tái)音頻客戶端“云聽”APP合作打造AI新聞主播，提供音頻內(nèi)容服務(wù)的一站式解決方案。和國(guó)內(nèi)其他AI新聞主播相比，倒映有聲的播音效果情緒更加飽滿、自然，在音色模擬、情感展現(xiàn)、多語(yǔ)種等方面都已達(dá)業(yè)內(nèi)領(lǐng)先水平。

▲倒映有聲語(yǔ)音合成技術(shù)在云聽APP上的應(yīng)用實(shí)例

三、背后的技術(shù)城池構(gòu)建，語(yǔ)音合成的三大優(yōu)勢(shì)

不管是有聲書還是AI新聞播報(bào)背后，都離不開倒映有聲在語(yǔ)音合成領(lǐng)域的技術(shù)積累和創(chuàng)新。

李驍談道，以前傳統(tǒng)的語(yǔ)音合成技術(shù)主要有兩種方式，分別為拼接法和參數(shù)法。例如最初的小米小愛同學(xué)就是采用拼接法，幾乎使用真人的聲音片段進(jìn)行算法拼接組合，優(yōu)勢(shì)是音色和自然度等效果好，缺點(diǎn)在于操作復(fù)雜度極高，對(duì)數(shù)據(jù)量需求也非常大。

“當(dāng)時(shí)我們讓配音員錄了將近半年時(shí)間，前后加起來(lái)上百個(gè)小時(shí)，才將小愛同學(xué)打磨到一個(gè)非常好的水平?！崩铗斦f(shuō)。

隨著端到端深度學(xué)習(xí)逐步拓展到語(yǔ)音合成領(lǐng)域，語(yǔ)音合成技術(shù)得到了質(zhì)的飛躍。

一方面，基于深度學(xué)習(xí)的語(yǔ)音合成技術(shù)，其內(nèi)部計(jì)算模塊和網(wǎng)絡(luò)構(gòu)建更為復(fù)雜，不管是參數(shù)量還是技術(shù)復(fù)雜度，都遠(yuǎn)遠(yuǎn)超過(guò)以往水平；另一方面，內(nèi)部結(jié)構(gòu)的復(fù)雜也使得模型搭建完成后，后續(xù)的使用會(huì)變得非常簡(jiǎn)單，無(wú)需再用大量數(shù)據(jù)去做底層支撐。

▲智能語(yǔ)音合成結(jié)構(gòu)（圖源：頭豹研究院）

整體來(lái)看，倒映有聲的語(yǔ)音合成技術(shù)主要擁有三方面核心優(yōu)勢(shì)。

一是擬真度，這是語(yǔ)音合成技術(shù)的核心。語(yǔ)音合成通常覆蓋有聲繪本、有聲讀物、新聞播報(bào)、呼叫中心等多個(gè)應(yīng)用場(chǎng)景，不同場(chǎng)景下的技術(shù)表達(dá)方式與操作邏輯都有著較大區(qū)別，例如小孩兒、成年人、老年人等不同音色，或是模擬不同動(dòng)物、怪獸的發(fā)音，都是一個(gè)較大的課題。

倒映有聲則能大大減少語(yǔ)音合成和真人表達(dá)之間的差異性，拉近合成聲與真人之間的距離，合成后的聲音采樣率達(dá)48kHz，更接近真人在錄音棚中錄制的聲音，而市場(chǎng)上主流合成采樣率為16kHz。

在多情感方面，倒映有聲的語(yǔ)音合成技術(shù)還能將情感表達(dá)得更精準(zhǔn)、細(xì)膩和豐富。同時(shí)，它還支持英文、中英文混合合成，跨語(yǔ)種定制成本低。

二是定制化能力。基于過(guò)去兩年的數(shù)據(jù)積累，倒映有聲在自己平臺(tái)上已沉淀了上千位真人主播，其語(yǔ)音合成定制化能力已達(dá)到只需200句話（約30分鐘時(shí)長(zhǎng)），就能幾乎100%還原一個(gè)人的聲音，并且能達(dá)到商業(yè)化落地的水平。

甚至用戶只需錄10-15句話，倒映有聲就能將聲音以90%的相似度“克隆”下來(lái)，但“克隆”下來(lái)的主要是聲線，句子數(shù)非常小，所以在情緒還原上還需其他算法技術(shù)進(jìn)行彌補(bǔ)。

三是語(yǔ)音合成技術(shù)的結(jié)合性。除了語(yǔ)音合成這一單點(diǎn)技術(shù)外，倒映有聲還很關(guān)注與之強(qiáng)相關(guān)的上下游技術(shù)點(diǎn)。例如在有聲讀物場(chǎng)景，倒映有聲已落地了全自動(dòng)畫本能力，每句話該用哪個(gè)音庫(kù)、該用什么情感風(fēng)格，都與語(yǔ)音合成技術(shù)有著強(qiáng)相關(guān)的綁定關(guān)系。

四、有聲書行業(yè)高速發(fā)展背后，倒映有聲的下一步規(guī)劃

從2019年3月成立至今，倒映有聲將近花了一年多時(shí)間在做底層技術(shù)的打磨和積累，直到2020年5月開始正式商業(yè)化。2020年間，他們9月跑通有聲書賽道，12月進(jìn)入廣電融媒體賽道……其中最大的變化在于聯(lián)合創(chuàng)始人兼CMO何培成的加入。

“何校長(zhǎng)補(bǔ)齊了我們的市場(chǎng)商務(wù)團(tuán)隊(duì)，讓倒映有聲從一家純粹的技術(shù)輸出型公司，轉(zhuǎn)變成了產(chǎn)品服務(wù)公司。”肖朔提到，在這個(gè)轉(zhuǎn)變中，公司針對(duì)幾個(gè)垂直場(chǎng)景形成了完整的產(chǎn)品服務(wù)，在打開市場(chǎng)局面的同時(shí)進(jìn)一步擴(kuò)充了公司營(yíng)收。

“去年公司主要聚焦在技術(shù)和產(chǎn)品階段，營(yíng)收基數(shù)較低?！焙闻喑烧劦?，今年公司營(yíng)收出現(xiàn)了明顯爆發(fā)，預(yù)計(jì)將有大幾百萬(wàn)的收入，同比增長(zhǎng)700%。

今年，倒映有聲的主要目標(biāo)還是集中在技術(shù)和市場(chǎng)兩個(gè)方面，一是夯實(shí)已切入的有聲書和AI新聞播報(bào)市場(chǎng)，做出標(biāo)桿客戶，實(shí)現(xiàn)更大規(guī)模收入的同時(shí)提升市場(chǎng)占有率，這也是今年他們最核心的目標(biāo)；二是希望基于自身的語(yǔ)音合成技術(shù)，延伸到更多商業(yè)場(chǎng)景。

至于技術(shù)方面，李驍認(rèn)為目前語(yǔ)音合成的關(guān)鍵挑戰(zhàn)是如何讓情緒表達(dá)更加細(xì)膩，“這將是我們持續(xù)深挖的點(diǎn)，只有把它攻克了，我們才有可能讓語(yǔ)音合成技術(shù)進(jìn)入到更多場(chǎng)景中?！彼f(shuō)，如何加強(qiáng)語(yǔ)音合成在長(zhǎng)音頻中的自然和流暢感也是一個(gè)難點(diǎn)，因?yàn)槟壳罢Z(yǔ)音合成仍聚焦在單句的合成上。

簡(jiǎn)單來(lái)說(shuō)，現(xiàn)階段語(yǔ)音合成技術(shù)的最大瓶頸已不在算力上，而是語(yǔ)音合成技術(shù)本身，如何才能用更好的數(shù)學(xué)模型來(lái)解釋人們發(fā)音的生理構(gòu)造和原理，也許是語(yǔ)音合成技術(shù)下一個(gè)最重要的突破口。

因此倒映有聲的下一步技術(shù)研發(fā)方向，一方面將從深度出發(fā)，持續(xù)挖掘情感的細(xì)膩表達(dá)，更好地控制在長(zhǎng)文本上連貫的漸強(qiáng)、漸弱自然表達(dá)。同時(shí)，更低成本的定制化也是重點(diǎn)之一。

另一方面則從廣度出發(fā)，加強(qiáng)和語(yǔ)音合成強(qiáng)相關(guān)的上下游技術(shù)鏈路，包括自然語(yǔ)言處理（NLP）方面的自動(dòng)角色劃分、文本級(jí)情感預(yù)測(cè)等重點(diǎn)。李驍認(rèn)為，再往下游走也有不少需要通過(guò)音頻驅(qū)動(dòng)的場(chǎng)景，例如語(yǔ)音驅(qū)動(dòng)虛擬人物的面部表情或肢體表達(dá)。

“整體來(lái)看，語(yǔ)音合成在有聲書和融媒體方向的落地都比較清晰了，真正挑戰(zhàn)是開拓增量場(chǎng)景?！毙に氛劦溃磥?lái)他們也將向東南亞地區(qū)，以及俄羅斯、日本、韓國(guó)等非英文母語(yǔ)國(guó)家提供服務(wù)，進(jìn)一步拓展海外業(yè)務(wù)范圍。

結(jié)語(yǔ)：語(yǔ)音合成技術(shù)爆發(fā)潛力巨大

智能語(yǔ)音作為當(dāng)下發(fā)展如火如荼的技術(shù)，已成為各產(chǎn)業(yè)智能化過(guò)程中不可或缺的重要工具，尤其是語(yǔ)音交互和語(yǔ)音識(shí)別技術(shù)，已深入到人們生活、工作的方方面面。相比之下，語(yǔ)音合成技術(shù)確實(shí)還未來(lái)到全面爆發(fā)的節(jié)點(diǎn)。

但目前在語(yǔ)音合成賽道中，有聲書行業(yè)的市場(chǎng)規(guī)模正保持著高速增長(zhǎng)。據(jù)市場(chǎng)研究機(jī)構(gòu)艾媒咨詢數(shù)據(jù)，中國(guó)有聲書行業(yè)規(guī)模已從2016年的23.7億元增長(zhǎng)至2019年的63.6億元，連續(xù)三年增速超30%，預(yù)計(jì)2020年將達(dá)到95億元左右。

倒映有聲的成立，無(wú)疑為語(yǔ)音合成技術(shù)在更多領(lǐng)域的融合創(chuàng)新提供了一個(gè)值得借鑒的商業(yè)樣本。這支創(chuàng)業(yè)團(tuán)隊(duì)讓我們看到了語(yǔ)音合成技術(shù)更廣闊的想象空間，從有聲書到AI新聞播報(bào)，從游戲到影視劇，從機(jī)器人到虛擬主播……似乎一切有視聽內(nèi)容輸出的場(chǎng)景，都有著不少潛在機(jī)會(huì)。

未來(lái)，隨著語(yǔ)音合成技術(shù)逐步進(jìn)入爆發(fā)階段，我們也期待它能給各行各業(yè)帶來(lái)更多創(chuàng)新性的突破和蛻變。