智東西(公眾號(hào):zhidxcom)
作者 | 韋世瑋
編輯 | 心緣

不到半年,僅成立兩年的TTS(語(yǔ)音合成)科技創(chuàng)企倒映有聲又開啟新一輪融資了。

如今,電子書、廣播劇等以聲音為載體的“耳朵經(jīng)濟(jì)”快速興起,其中有些堪比專業(yè)播音員的聲音,其實(shí)是由人工智能(AI)合成出來(lái)的。

相比真人播音員,AI語(yǔ)音合成技術(shù)不僅大大縮短配音時(shí)間,而且更加節(jié)約制作成本和人力成本。以提供語(yǔ)音合成系統(tǒng)及解決方案起家的倒映有聲,即是在做這樣的事。

過(guò)去一年,倒映有聲上線的有聲讀物制作平臺(tái),其AI主播每日單機(jī)生產(chǎn)速度已超500萬(wàn)字,錄制成本可節(jié)約超90%。今年3月,它與中央廣播電視總臺(tái)音頻客戶端“云聽”APP達(dá)成合作,開展基于央廣總臺(tái)IP和融媒體領(lǐng)域的AI產(chǎn)品研發(fā),這意味著其業(yè)務(wù)已成功打入“國(guó)家隊(duì)”。

倒映有聲的核心團(tuán)隊(duì)大多出身于百度、微軟、阿里等公司,早期小愛同學(xué)、小度智能音箱、百度語(yǔ)音導(dǎo)航、百度呼叫中心等語(yǔ)音產(chǎn)品底層技術(shù)的構(gòu)建,都少不了這群技術(shù)專家的身影。

基于端到端神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)合成器,倒映有聲自研了情緒和情感控制模塊,在音色模擬、情感展現(xiàn)、定制化服務(wù)、多語(yǔ)種等方面都已達(dá)行業(yè)領(lǐng)先水平。

其融資也在快速推進(jìn)中。此前,這家創(chuàng)企已完成2019年5月300萬(wàn)元的天使輪融資、今年5月千萬(wàn)級(jí)人民幣的Pre-A輪融資,并正在啟動(dòng)A輪融資,目標(biāo)規(guī)模為2000-3000萬(wàn)元,以加快技術(shù)研發(fā)、加速垂直場(chǎng)景的產(chǎn)品落地。

在北京建外SOHO的一間辦公室里,這家團(tuán)隊(duì)規(guī)模不到20人的新興企業(yè),正醞釀著一場(chǎng)圍繞語(yǔ)音合成領(lǐng)域的新一輪搶位賽。

近日,智東西走進(jìn)他們的北京總部,通過(guò)與其創(chuàng)始團(tuán)隊(duì)展開深入交流,我們了解到更多這家公司的誕生與成長(zhǎng)故事,也看到了不少他們對(duì)AI語(yǔ)音技術(shù)創(chuàng)新的探索和堅(jiān)持。

日產(chǎn)有聲書500萬(wàn)字,效率碾壓真人配音,這家AI公司如何做到?

▲從左到右分別為倒映有聲聯(lián)合創(chuàng)始人兼CTO李驍、倒映有聲創(chuàng)始人兼CEO肖朔、倒映有聲聯(lián)合創(chuàng)始人兼CMO何培成

一、助推百度小米智能音箱誕生,倒映有聲的起航

2013年左右,碩士畢業(yè)于北京航空航天大學(xué)云計(jì)算專業(yè)的肖朔,加入了百度語(yǔ)音技術(shù)部工作。同期加入的,還有剛從英國(guó)帝國(guó)理工大學(xué)人工智能專業(yè)碩士畢業(yè)回國(guó)的李驍。這時(shí),百度的人工智能(AI)業(yè)務(wù)才剛剛起步。

在百度期間,肖朔與李驍所在的團(tuán)隊(duì)開發(fā)了國(guó)內(nèi)首款情感語(yǔ)言合成系統(tǒng),并先后研發(fā)了小度智能音箱、百度呼叫中心等產(chǎn)品,給未來(lái)百度智能語(yǔ)音生態(tài)的構(gòu)建和豐富打下了重要基礎(chǔ)。

此外,二人還曾任職于獵豹移動(dòng)投資的AI創(chuàng)企——獵戶星空,在一年時(shí)間里與初創(chuàng)團(tuán)隊(duì)共同參與了小米首款小愛智能音箱的開發(fā)項(xiàng)目。

在這幾年摸爬滾打的過(guò)程中,正是這兩段從0到1構(gòu)建技術(shù)方案的經(jīng)歷,讓肖朔與李驍逐漸產(chǎn)生了創(chuàng)業(yè)的想法。恰好在獵戶星空打拼的經(jīng)歷,也讓他們接觸了許多創(chuàng)意知識(shí)和經(jīng)驗(yàn),“消除了對(duì)創(chuàng)業(yè)的恐懼感?!?/p>

2019年,隨著百度語(yǔ)音技術(shù)已步入成熟發(fā)展的正軌,其語(yǔ)音技術(shù)戰(zhàn)略重點(diǎn)已不在語(yǔ)音合成,更多是聚焦在語(yǔ)音交互。與此同時(shí),得益于硬件設(shè)施的完善、算力的增強(qiáng),以及深度學(xué)習(xí)應(yīng)用場(chǎng)景的進(jìn)一步拓展,曾一直處于早期發(fā)展階段的語(yǔ)音合成技術(shù)終于有了變革性突破。

因此,肖朔和李驍決定離開百度,開啟創(chuàng)業(yè)生涯。2019年3月,倒映有聲于杭州正式注冊(cè)成立,由于跟隨他們一同出來(lái)創(chuàng)業(yè)的還有不少原百度團(tuán)隊(duì)的伙伴,他們也選擇將公司總部“落戶”北京,并在成立兩個(gè)月后拿下300萬(wàn)人民幣的天使輪融資。

肖朔和李驍?shù)膭?chuàng)業(yè)之旅正式起航,倒映有聲的挑戰(zhàn)也才剛剛開始。

日產(chǎn)有聲書500萬(wàn)字,效率碾壓真人配音,這家AI公司如何做到?

二、押注有聲書和AI新聞播報(bào),語(yǔ)音合成想象空間巨大

不過(guò),AI語(yǔ)音的賽道如此廣泛,倒映有聲為何堅(jiān)定地選擇語(yǔ)音合成賽道?

在肖朔看來(lái),語(yǔ)音識(shí)別是最早爆發(fā)的語(yǔ)音技術(shù),科大訊飛、云知聲等公司已深耕多年,做出了智能醫(yī)療、智能翻譯筆、智能會(huì)議錄入系統(tǒng)等成熟產(chǎn)品,給新玩家留下的市場(chǎng)機(jī)會(huì)并不多。

技術(shù)方面,李驍認(rèn)為目前語(yǔ)音識(shí)別技術(shù)已進(jìn)入了單純比拼識(shí)別準(zhǔn)確率的成熟階段。相比之下,語(yǔ)音合成仍有許多待發(fā)掘的細(xì)分場(chǎng)景,包括廣播劇、有聲書、游戲配音,甚至亞文化中的虛擬偶像等,都是未來(lái)的落地方向,想象空間巨大。

例如,以往有聲書、廣播劇等長(zhǎng)音頻作品在制作過(guò)程中,需要人工對(duì)大量文字腳本進(jìn)行前期畫本、中期配音、后期剪輯等工作,整套流程要花費(fèi)幾個(gè)月時(shí)間,還涉及不少人工成本。但如果使用語(yǔ)音合成技術(shù),能極大地壓縮各個(gè)環(huán)節(jié)中的時(shí)間和財(cái)務(wù)成本,只需幾天甚至幾個(gè)小時(shí),就能完成一個(gè)長(zhǎng)音頻作品的制作。

日產(chǎn)有聲書500萬(wàn)字,效率碾壓真人配音,這家AI公司如何做到?

再比如影視和游戲配音中,為了保證用戶的觀影及游戲體驗(yàn),制作團(tuán)隊(duì)需要花大量時(shí)間篩選適合角色的配音員,同時(shí)還需考慮配音員的休息時(shí)間、續(xù)集聲音的連貫性等,這些也對(duì)制作周期帶來(lái)了許多不確定性。若采用語(yǔ)音合成技術(shù),只需輸入腳本就能快速生成適合人物形象和作品需求的聲音。

不過(guò),由于用戶對(duì)語(yǔ)音合成技術(shù)的體感要求非常高,如果技術(shù)無(wú)法達(dá)到媲美真人的效果水平,就很難有用戶愿意付費(fèi),同時(shí)用戶付費(fèi)的意愿與技術(shù)效果的提高成正比。

“因此語(yǔ)音合成技術(shù)是整個(gè)語(yǔ)音交互技術(shù)鏈路上最后爆發(fā)的賽道,一旦爆發(fā),市場(chǎng)空間會(huì)更大?!?/strong>肖朔評(píng)價(jià)。

目前,倒映有聲主要以有聲書和AI新聞播報(bào)兩大場(chǎng)景為切入點(diǎn),為創(chuàng)作者、版權(quán)方和融媒體平臺(tái)等客戶提供高產(chǎn)能、低成本的音頻制作服務(wù)。

有聲書方面,倒映有聲主要提供有聲讀物交易制作平臺(tái),用戶通過(guò)該平臺(tái)可實(shí)現(xiàn)從覆蓋文稿畫本到配音錄制,再到音頻剪輯的全流程云端制作,還可自主選擇全自動(dòng)/半自動(dòng)制作,以及純AI主播、AI人聲+真人主播錄制等。

例如在前期處理環(huán)節(jié),平臺(tái)可實(shí)現(xiàn)對(duì)文稿的篩選和清洗,如果是廣播劇級(jí)別的內(nèi)容,還能對(duì)內(nèi)容進(jìn)行深層次的改造,包括配音的角色劃分、性格描述刻畫、情緒風(fēng)格等要素,以改編成適合收聽的文本。

AI新聞播報(bào)方面,倒映有聲與中央廣播電視總臺(tái)音頻客戶端“云聽”APP合作打造AI新聞主播,提供音頻內(nèi)容服務(wù)的一站式解決方案。和國(guó)內(nèi)其他AI新聞主播相比,倒映有聲的播音效果情緒更加飽滿、自然,在音色模擬、情感展現(xiàn)、多語(yǔ)種等方面都已達(dá)業(yè)內(nèi)領(lǐng)先水平。

▲倒映有聲語(yǔ)音合成技術(shù)在云聽APP上的應(yīng)用實(shí)例

三、背后的技術(shù)城池構(gòu)建,語(yǔ)音合成的三大優(yōu)勢(shì)

不管是有聲書還是AI新聞播報(bào)背后,都離不開倒映有聲在語(yǔ)音合成領(lǐng)域的技術(shù)積累和創(chuàng)新。

李驍談道,以前傳統(tǒng)的語(yǔ)音合成技術(shù)主要有兩種方式,分別為拼接法和參數(shù)法。例如最初的小米小愛同學(xué)就是采用拼接法,幾乎使用真人的聲音片段進(jìn)行算法拼接組合,優(yōu)勢(shì)是音色和自然度等效果好,缺點(diǎn)在于操作復(fù)雜度極高,對(duì)數(shù)據(jù)量需求也非常大。

“當(dāng)時(shí)我們讓配音員錄了將近半年時(shí)間,前后加起來(lái)上百個(gè)小時(shí),才將小愛同學(xué)打磨到一個(gè)非常好的水平?!崩铗斦f(shuō)。

隨著端到端深度學(xué)習(xí)逐步拓展到語(yǔ)音合成領(lǐng)域,語(yǔ)音合成技術(shù)得到了質(zhì)的飛躍。

一方面,基于深度學(xué)習(xí)的語(yǔ)音合成技術(shù),其內(nèi)部計(jì)算模塊和網(wǎng)絡(luò)構(gòu)建更為復(fù)雜,不管是參數(shù)量還是技術(shù)復(fù)雜度,都遠(yuǎn)遠(yuǎn)超過(guò)以往水平;另一方面,內(nèi)部結(jié)構(gòu)的復(fù)雜也使得模型搭建完成后,后續(xù)的使用會(huì)變得非常簡(jiǎn)單,無(wú)需再用大量數(shù)據(jù)去做底層支撐。

日產(chǎn)有聲書500萬(wàn)字,效率碾壓真人配音,這家AI公司如何做到?

▲智能語(yǔ)音合成結(jié)構(gòu)(圖源:頭豹研究院)

整體來(lái)看,倒映有聲的語(yǔ)音合成技術(shù)主要擁有三方面核心優(yōu)勢(shì)。

一是擬真度,這是語(yǔ)音合成技術(shù)的核心。語(yǔ)音合成通常覆蓋有聲繪本、有聲讀物、新聞播報(bào)、呼叫中心等多個(gè)應(yīng)用場(chǎng)景,不同場(chǎng)景下的技術(shù)表達(dá)方式與操作邏輯都有著較大區(qū)別,例如小孩兒、成年人、老年人等不同音色,或是模擬不同動(dòng)物、怪獸的發(fā)音,都是一個(gè)較大的課題。

倒映有聲則能大大減少語(yǔ)音合成和真人表達(dá)之間的差異性,拉近合成聲與真人之間的距離,合成后的聲音采樣率達(dá)48kHz,更接近真人在錄音棚中錄制的聲音,而市場(chǎng)上主流合成采樣率為16kHz。

在多情感方面,倒映有聲的語(yǔ)音合成技術(shù)還能將情感表達(dá)得更精準(zhǔn)、細(xì)膩和豐富。同時(shí),它還支持英文、中英文混合合成,跨語(yǔ)種定制成本低。

二是定制化能力。基于過(guò)去兩年的數(shù)據(jù)積累,倒映有聲在自己平臺(tái)上已沉淀了上千位真人主播,其語(yǔ)音合成定制化能力已達(dá)到只需200句話(約30分鐘時(shí)長(zhǎng)),就能幾乎100%還原一個(gè)人的聲音,并且能達(dá)到商業(yè)化落地的水平。

甚至用戶只需錄10-15句話,倒映有聲就能將聲音以90%的相似度“克隆”下來(lái),但“克隆”下來(lái)的主要是聲線,句子數(shù)非常小,所以在情緒還原上還需其他算法技術(shù)進(jìn)行彌補(bǔ)。

三是語(yǔ)音合成技術(shù)的結(jié)合性。除了語(yǔ)音合成這一單點(diǎn)技術(shù)外,倒映有聲還很關(guān)注與之強(qiáng)相關(guān)的上下游技術(shù)點(diǎn)。例如在有聲讀物場(chǎng)景,倒映有聲已落地了全自動(dòng)畫本能力,每句話該用哪個(gè)音庫(kù)、該用什么情感風(fēng)格,都與語(yǔ)音合成技術(shù)有著強(qiáng)相關(guān)的綁定關(guān)系。

日產(chǎn)有聲書500萬(wàn)字,效率碾壓真人配音,這家AI公司如何做到?

四、有聲書行業(yè)高速發(fā)展背后,倒映有聲的下一步規(guī)劃

從2019年3月成立至今,倒映有聲將近花了一年多時(shí)間在做底層技術(shù)的打磨和積累,直到2020年5月開始正式商業(yè)化。2020年間,他們9月跑通有聲書賽道,12月進(jìn)入廣電融媒體賽道……其中最大的變化在于聯(lián)合創(chuàng)始人兼CMO何培成的加入。

“何校長(zhǎng)補(bǔ)齊了我們的市場(chǎng)商務(wù)團(tuán)隊(duì),讓倒映有聲從一家純粹的技術(shù)輸出型公司,轉(zhuǎn)變成了產(chǎn)品服務(wù)公司。”肖朔提到,在這個(gè)轉(zhuǎn)變中,公司針對(duì)幾個(gè)垂直場(chǎng)景形成了完整的產(chǎn)品服務(wù),在打開市場(chǎng)局面的同時(shí)進(jìn)一步擴(kuò)充了公司營(yíng)收。

“去年公司主要聚焦在技術(shù)和產(chǎn)品階段,營(yíng)收基數(shù)較低?!焙闻喑烧劦?,今年公司營(yíng)收出現(xiàn)了明顯爆發(fā),預(yù)計(jì)將有大幾百萬(wàn)的收入,同比增長(zhǎng)700%。

今年,倒映有聲的主要目標(biāo)還是集中在技術(shù)和市場(chǎng)兩個(gè)方面,一是夯實(shí)已切入的有聲書和AI新聞播報(bào)市場(chǎng),做出標(biāo)桿客戶,實(shí)現(xiàn)更大規(guī)模收入的同時(shí)提升市場(chǎng)占有率,這也是今年他們最核心的目標(biāo);二是希望基于自身的語(yǔ)音合成技術(shù),延伸到更多商業(yè)場(chǎng)景。

日產(chǎn)有聲書500萬(wàn)字,效率碾壓真人配音,這家AI公司如何做到?

至于技術(shù)方面,李驍認(rèn)為目前語(yǔ)音合成的關(guān)鍵挑戰(zhàn)是如何讓情緒表達(dá)更加細(xì)膩,“這將是我們持續(xù)深挖的點(diǎn),只有把它攻克了,我們才有可能讓語(yǔ)音合成技術(shù)進(jìn)入到更多場(chǎng)景中?!彼f(shuō),如何加強(qiáng)語(yǔ)音合成在長(zhǎng)音頻中的自然和流暢感也是一個(gè)難點(diǎn),因?yàn)槟壳罢Z(yǔ)音合成仍聚焦在單句的合成上。

簡(jiǎn)單來(lái)說(shuō),現(xiàn)階段語(yǔ)音合成技術(shù)的最大瓶頸已不在算力上,而是語(yǔ)音合成技術(shù)本身,如何才能用更好的數(shù)學(xué)模型來(lái)解釋人們發(fā)音的生理構(gòu)造和原理,也許是語(yǔ)音合成技術(shù)下一個(gè)最重要的突破口。

因此倒映有聲的下一步技術(shù)研發(fā)方向,一方面將從深度出發(fā),持續(xù)挖掘情感的細(xì)膩表達(dá),更好地控制在長(zhǎng)文本上連貫的漸強(qiáng)、漸弱自然表達(dá)。同時(shí),更低成本的定制化也是重點(diǎn)之一。

另一方面則從廣度出發(fā),加強(qiáng)和語(yǔ)音合成強(qiáng)相關(guān)的上下游技術(shù)鏈路,包括自然語(yǔ)言處理(NLP)方面的自動(dòng)角色劃分、文本級(jí)情感預(yù)測(cè)等重點(diǎn)。李驍認(rèn)為,再往下游走也有不少需要通過(guò)音頻驅(qū)動(dòng)的場(chǎng)景,例如語(yǔ)音驅(qū)動(dòng)虛擬人物的面部表情或肢體表達(dá)。

“整體來(lái)看,語(yǔ)音合成在有聲書和融媒體方向的落地都比較清晰了,真正挑戰(zhàn)是開拓增量場(chǎng)景?!毙に氛劦溃磥?lái)他們也將向東南亞地區(qū),以及俄羅斯、日本、韓國(guó)等非英文母語(yǔ)國(guó)家提供服務(wù),進(jìn)一步拓展海外業(yè)務(wù)范圍。

結(jié)語(yǔ):語(yǔ)音合成技術(shù)爆發(fā)潛力巨大

智能語(yǔ)音作為當(dāng)下發(fā)展如火如荼的技術(shù),已成為各產(chǎn)業(yè)智能化過(guò)程中不可或缺的重要工具,尤其是語(yǔ)音交互和語(yǔ)音識(shí)別技術(shù),已深入到人們生活、工作的方方面面。相比之下,語(yǔ)音合成技術(shù)確實(shí)還未來(lái)到全面爆發(fā)的節(jié)點(diǎn)。

但目前在語(yǔ)音合成賽道中,有聲書行業(yè)的市場(chǎng)規(guī)模正保持著高速增長(zhǎng)。據(jù)市場(chǎng)研究機(jī)構(gòu)艾媒咨詢數(shù)據(jù),中國(guó)有聲書行業(yè)規(guī)模已從2016年的23.7億元增長(zhǎng)至2019年的63.6億元,連續(xù)三年增速超30%,預(yù)計(jì)2020年將達(dá)到95億元左右。

倒映有聲的成立,無(wú)疑為語(yǔ)音合成技術(shù)在更多領(lǐng)域的融合創(chuàng)新提供了一個(gè)值得借鑒的商業(yè)樣本。這支創(chuàng)業(yè)團(tuán)隊(duì)讓我們看到了語(yǔ)音合成技術(shù)更廣闊的想象空間,從有聲書到AI新聞播報(bào),從游戲到影視劇,從機(jī)器人到虛擬主播……似乎一切有視聽內(nèi)容輸出的場(chǎng)景,都有著不少潛在機(jī)會(huì)。

未來(lái),隨著語(yǔ)音合成技術(shù)逐步進(jìn)入爆發(fā)階段,我們也期待它能給各行各業(yè)帶來(lái)更多創(chuàng)新性的突破和蛻變。