[智東西· 硬創(chuàng)先鋒,專注于全球智能行業(yè)創(chuàng)業(yè)公司報道。針對海外智能行業(yè)創(chuàng)業(yè)公司,我們將推出系列報道,本期主角是Reflekt,一家提供增強現(xiàn)實工業(yè)解決方案的AR平臺。]

智東西(公眾號:zhidxcom

文|十四

導(dǎo)語:

語音識別,是未來人機交互的關(guān)鍵,這似乎已成為一種共識。去年,美國加州山景城成立了一家智能語音識別、搜索初創(chuàng)公司——DeepGram。目前已經(jīng)拿下了孵化公司Y Combinator(YC)和Zillionize的種子輪投資。這兩家孵化器的眼光有多毒辣,就不贅述了??纯礃I(yè)界的這個說法就知道了:在硅谷,有兩種孵化器,一種叫YC,一種叫其他。

這家AI公司要做音頻版”谷歌”  讓搜聲音像搜網(wǎng)頁一樣簡單

DeepGram聚焦在一個前景巨大的產(chǎn)業(yè)

DeepGram被形容為音頻版的谷歌,因為它提供基于網(wǎng)頁的智能語音檢索API,能分辨口誤、口音、俗語等問題,為用戶提供需要的信息。DeepGram的搜索范疇包括通話、會議、播客、視頻短片、演講等。

這樣的工作,之所以被重視,主要還是智能語音龐大的前景。

YC指出,美國每年有幾十億小時的音源通信,這花費了逾10億美元。而其中,只有不到四分之一的產(chǎn)品涵蓋了分析、搜索的功能。

此外,智能語音還可用于智能家居信息交互的入口,這可是個預(yù)計到2019年規(guī)模達1500億美元+的市場。它還在車載系統(tǒng)、可穿戴設(shè)備領(lǐng)域頗有前景。

DeepGram干了兩件事!

老實說,依靠大量存儲的音頻源來建立語音搜索是一件太愚蠢和困難的工作。DeepGram的出現(xiàn),有兩個很重要的基礎(chǔ):人工智能建模(自動分析語音流并進行歸類)和模糊搜索(fuzzy search),它們奠定了智能語音的可行性,于是DeepGram只要做兩件事:

1、 建立音頻數(shù)據(jù)庫:云存儲技術(shù)的出現(xiàn)大大降低了音頻數(shù)據(jù)庫的成本,幾乎所有的智能硬件初創(chuàng)公司都會對此加以利用。

2、 基于GPU的算法:DeepGram采用了關(guān)鍵詞搜索和模糊搜索項結(jié)合的方式,將準確度提高到90%以上,并利用深度學(xué)習(xí)技術(shù)來分析語音的復(fù)雜性。

兩個人的團隊

領(lǐng)英顯示,這家公司的員工規(guī)模不超過10個人。事實上,主要只有CEO Scott Stephenson和CTO Noah Shutty兩人。

相當(dāng)有趣的是,Scott Stephenson還是個研究暗物質(zhì)的物理學(xué)家。這或許從某種程度上意味著,語音識別的技術(shù)壁壘并沒有我們想象的那么高,未必非得脫胎于高校、科研機構(gòu)等。

據(jù)悉,這倆人現(xiàn)在已經(jīng)推出了DeepGram的免費試用插件,用戶注冊后,每個月能進行40小時的智能語音搜索。不過,鑒于DeepGram的準確度依然有待提高,Stephenson和Shutty還在想辦法改進它的功能性。

項目仍處在很早期

據(jù)公開資料,YC孵化器在種子輪給這個團隊投資了12萬美元,看得出,還處在非常早期的階段,DeepGram除了提供API也還沒有獨立可用的產(chǎn)品,如果上面DeppGram在做的兩件事能夠把基礎(chǔ)搭好,則能證明這個“音頻版谷歌”的可行性。

這家AI公司要做音頻版”谷歌”  讓搜聲音像搜網(wǎng)頁一樣簡單