智東西(公眾號(hào):zhidxcom)
編 | 王穎

導(dǎo)語:微軟利用人工智能轉(zhuǎn)錄會(huì)議音頻,新系統(tǒng)使用云端麥克風(fēng)陣列。

智東西9月16日消息,微軟語音和對(duì)話研究小組的科學(xué)家最近研發(fā)了一個(gè)系統(tǒng),利用內(nèi)置于智能手機(jī)、筆記本電腦和平板電腦中的麥克風(fēng)來提高音頻質(zhì)量。

這個(gè)系統(tǒng)通過智能硬件連接互聯(lián)網(wǎng),在云端形成臨時(shí)的麥克風(fēng)陣列,可以實(shí)時(shí)高精度轉(zhuǎn)錄音頻。研究小組計(jì)劃在Interspeech 2019年會(huì)議上發(fā)表相關(guān)的研究論文。

會(huì)議室的音頻無法及時(shí)可靠地傳達(dá)給遠(yuǎn)程參加會(huì)議的各方時(shí),總會(huì)令人感到非常無奈。音響效果的差異和干擾總是導(dǎo)致線路另一端接收的音頻清晰度降低。

接下來我們一起了解一下,微軟設(shè)計(jì)的云端麥克風(fēng)系統(tǒng),是如何提高音頻轉(zhuǎn)錄的精度和效率的。

微軟最新AI系統(tǒng)!使用云端麥克風(fēng)陣列,音頻轉(zhuǎn)錄精度提升22.4%

一、云端麥克風(fēng)陣列提高音頻精度

微軟團(tuán)隊(duì)的解決方案是一個(gè)端到端系統(tǒng),首先從不同的麥克風(fēng)收集聲音信號(hào),然后進(jìn)行波束成形,這種技術(shù)能使麥克風(fēng)陣列對(duì)來自特定方向的聲音更加敏感。

該系統(tǒng)的主要研究人員Takuya Yoshioka在博客中寫道:“我們方法背后的核心思想是利用與會(huì)者通常攜帶到會(huì)議現(xiàn)場(chǎng)的筆記本電腦和智能手機(jī)等任何與互聯(lián)網(wǎng)相連的設(shè)備,虛擬地在云端形成一個(gè)臨時(shí)的麥克風(fēng)陣列?!?/p>

由一個(gè)識(shí)別信號(hào)之間關(guān)系的模型進(jìn)行編排。在波束形成過程中,信號(hào)被反饋到下游的語音識(shí)別模塊,然后對(duì)它們進(jìn)行合并、注釋并發(fā)送回與會(huì)者。

據(jù)研究團(tuán)隊(duì)介紹,通過他們的方法,使用云端麥克風(fēng)陣列,參加會(huì)議時(shí)人們可以使用已經(jīng)帶到會(huì)議現(xiàn)場(chǎng)的手機(jī)、筆記本電腦和平板電腦實(shí)時(shí)高精度轉(zhuǎn)錄音頻,無需專用的硬件設(shè)備。

Takuya Yoshioka指出,這種方法在理論上要比執(zhí)行上簡(jiǎn)單,因?yàn)椴煌O(shè)備之間的音頻保真度存在很大差異,不同麥克風(fēng)捕捉到的語音信號(hào)彼此并不一致。設(shè)備的數(shù)量及其相對(duì)位置在每次會(huì)議之間的不一致也增加了麥克風(fēng)陣列的設(shè)計(jì)難度。

二、語音轉(zhuǎn)錄系統(tǒng)仍需進(jìn)一步完善

研究人員報(bào)告說,在定性測(cè)試中,他們的人工智能系統(tǒng)在使用3個(gè)麥克風(fēng)和7個(gè)麥克風(fēng)的情況下,其性能分別比單設(shè)備系統(tǒng)高出14.8%和22.4%。

研發(fā)團(tuán)隊(duì)表示,他們的系統(tǒng)還不完善,偶爾會(huì)因?yàn)橹丿B的語音而出錯(cuò)。測(cè)試中,有10%的錄音中包含不止一個(gè)說話者,這時(shí)語音轉(zhuǎn)錄的錯(cuò)誤率為13.6%。

論文中Takuya Yoshioka和他的同事寫道:“我們將設(shè)備分布在放假各處,獲得了更好的空間覆蓋率,研究顯示了多個(gè)異步麥克風(fēng)在真實(shí)場(chǎng)景中滿足轉(zhuǎn)錄的有效性?!?/p>

結(jié)語:語音轉(zhuǎn)錄技術(shù)提升還需加大研發(fā)投入

微軟在語音轉(zhuǎn)錄方面的研究迎合了市場(chǎng)的需求。去年夏天,微軟在語音轉(zhuǎn)錄方面的研究已經(jīng)應(yīng)用在了微軟365上,可以自主將語音轉(zhuǎn)換為文本,與會(huì)者還能通過視頻記錄轉(zhuǎn)換文本,使錄音文件的文本轉(zhuǎn)錄變得更加簡(jiǎn)單便捷。

幾個(gè)月后,微軟在又OneDrive和SharePoint中推出了音頻和視頻文件的自動(dòng)轉(zhuǎn)錄功能,進(jìn)一步提升了文本轉(zhuǎn)換的效率。

語音文本的實(shí)時(shí)轉(zhuǎn)錄,在辦公和學(xué)習(xí)場(chǎng)景中都有很強(qiáng)的實(shí)用性。目前,語音轉(zhuǎn)錄系統(tǒng)還不完善,轉(zhuǎn)錄的準(zhǔn)確性還有待提升,在數(shù)據(jù)、算法等方面還需要更多的研發(fā)投入,以滿足消費(fèi)者在不同場(chǎng)景下的需求。

論文鏈接:https://www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf

原文來自:VentureBeat