智東西(公眾號(hào):zhidxcom)
編 |?王穎

導(dǎo)語(yǔ):IBM提出分布式處理架構(gòu)ASR,將語(yǔ)音識(shí)別訓(xùn)練時(shí)間從一周縮短至11.5小時(shí)。

智東西4月11日消息,IBM將在5月的ICASSP會(huì)議上公布新型AI語(yǔ)音模型處理架構(gòu)ASR,大量縮短語(yǔ)音識(shí)別訓(xùn)練時(shí)間。

IBM在最新發(fā)表的論文《分布式深度學(xué)習(xí)自動(dòng)語(yǔ)音識(shí)別策略》(Distributed Deep Learning Strategies for Automatic Speech Recognition)中提出了一種分布式處理架構(gòu)(ASR),該架構(gòu)可以在流行的開(kāi)放源代碼基準(zhǔn)測(cè)試(Switchboard)上將訓(xùn)練提速15倍,而且不會(huì)損失準(zhǔn)確性。

論文的作者表示,ASR部署在包含多個(gè)顯卡的系統(tǒng)上,可以將培訓(xùn)時(shí)間總計(jì)從幾周減少到幾天。這項(xiàng)工作計(jì)劃于下個(gè)月在IEEE國(guó)際聲學(xué),語(yǔ)音和信號(hào)處理會(huì)議(ICASSP)會(huì)議上公布。

從7天到11.5小時(shí) IBM新模型讓語(yǔ)音AI訓(xùn)練時(shí)間更短!

一、分布式深度學(xué)習(xí)加速算法

IBM團(tuán)隊(duì)的解決方案需要提高批量大小,即可以一次處理的樣本數(shù)量,但不是不加選擇地處理,否則將對(duì)準(zhǔn)確性產(chǎn)生負(fù)面影響。他們將批量大小增加到2560個(gè),同時(shí)應(yīng)用一種稱(chēng)為異步分散并行隨機(jī)梯度下降(ADPSGD)的分布式深度學(xué)習(xí)技術(shù)。

正如研究人員解釋的那樣,大多數(shù)深度學(xué)習(xí)模型要么采用同步優(yōu)化方法,這種方法受到慢系統(tǒng)的不成比例的影響;要么采用基于參數(shù)服務(wù)器(PS)的異步方法,這種方法往往導(dǎo)致模型不夠精確。 相比之下,IBM去年在論文中首次詳述的ADPSGD是異步和分散的,保證了模型準(zhǔn)確性的基線水平,并為某些類(lèi)型的優(yōu)化問(wèn)題提供了加速。

在測(cè)試中,該論文的作者表示,ADPSGD縮短了ASR作業(yè)的運(yùn)行時(shí)間,從單個(gè)V100圖形處理器上的一周縮短到32圖形處理器系統(tǒng)上的11.5小時(shí)。ADPSGD留給未來(lái)工作算法的時(shí)間,可以處理更大的批量和系統(tǒng)優(yōu)化更強(qiáng)大的硬件。

IBM研究人員張偉、崔曉東和Brian Kingsbury在博文中寫(xiě)道:“在半天內(nèi)完成一項(xiàng)培訓(xùn)工作是可取的,因?yàn)樗寡芯咳藛T能夠快速迭代開(kāi)發(fā)新算法,也可以使開(kāi)發(fā)人員快速調(diào)整現(xiàn)有模型以適應(yīng)他們的應(yīng)用,特別是在需要大量語(yǔ)音來(lái)實(shí)現(xiàn)穩(wěn)健性和可用性所需的高精度時(shí)的情況下?!?/p>

二、復(fù)雜模型訓(xùn)練更需縮短時(shí)間

機(jī)器學(xué)習(xí)訓(xùn)練中,需要克服的持續(xù)性的挑戰(zhàn),是可靠、強(qiáng)大且可概括的語(yǔ)音識(shí)別。傳統(tǒng)上,訓(xùn)練自然語(yǔ)言理解模型需要包含數(shù)千小時(shí)語(yǔ)音和數(shù)百萬(wàn)(甚至數(shù)十億)字的語(yǔ)料庫(kù),更不用說(shuō)在合理的時(shí)間范圍內(nèi)處理它們的強(qiáng)大硬件了。

張偉、崔曉東和Brian Kingsbury介紹,訓(xùn)練像蘋(píng)果的Siri、谷歌智能助理和亞馬遜的Alexa那樣的自動(dòng)語(yǔ)音識(shí)別系統(tǒng),需要復(fù)雜的編碼系統(tǒng)將語(yǔ)音轉(zhuǎn)換為深度學(xué)習(xí)系統(tǒng)和解碼系統(tǒng)能夠理解的功能,將輸出轉(zhuǎn)換成人類(lèi)可讀的文本。更復(fù)雜模型系統(tǒng)使大規(guī)模訓(xùn)練更加困難。

論文發(fā)布會(huì)議鏈接:https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=3910

原文來(lái)自:VentureBeat