智東西(公眾號(hào):zhidxcom)
作者 | 韋世瑋
編輯 | 漠影

夏至將至,和氣溫一樣持續(xù)攀升的還有TWS(真無線藍(lán)牙立體聲)耳機(jī)市場(chǎng)的熱度。

據(jù)業(yè)內(nèi)機(jī)構(gòu)統(tǒng)計(jì),截至5月12日,今年已有25款品牌TWS耳機(jī)推出。僅在剛剛過去的5月,OPPO、vivo、華為、努比亞、小度等玩家也相繼推出TWS耳機(jī)新品,進(jìn)一步加劇市場(chǎng)混戰(zhàn)。其中,前三位玩家的TWS耳機(jī)均支持通話降噪。

與蘋果AirPods帶火的主動(dòng)降噪不同,通話降噪主要針對(duì)耳機(jī)中的麥克風(fēng),通過算法使麥克風(fēng)收音更加純粹,而主動(dòng)降噪主要針對(duì)揚(yáng)聲器,算法圍繞用戶“聽”的過程進(jìn)行處理。

隨著通話降噪逐漸成為當(dāng)下各路玩家PK的主要功能之一,也出現(xiàn)了許多公司競(jìng)相押注通話降噪賽道,各類解決方案百花齊放。

成立于20172月的大象聲科,則是專注AI智能聽覺技術(shù)賽道上一家頗具特色的企業(yè),主要基于機(jī)器聽覺AI算法開發(fā)智能語(yǔ)音增強(qiáng)和語(yǔ)音交互解決方案。

被羅永浩看中后一戰(zhàn)成名,小米高通投資!這家AI創(chuàng)企牛在哪?

近期,智東西也有機(jī)會(huì)與大象聲科的核心團(tuán)隊(duì)人員交流,在了解他們創(chuàng)業(yè)故事、核心技術(shù)和發(fā)展路徑的過程中,我們也看到了當(dāng)下通話降噪技術(shù)領(lǐng)域的發(fā)展現(xiàn)狀。

實(shí)際上,大象聲科的AI通話降噪算法最初被錘子科技創(chuàng)始人羅永浩看中,應(yīng)用在了堅(jiān)果手機(jī)上,隨即一戰(zhàn)成名,業(yè)務(wù)逐漸向智能手機(jī)、PC、車載聲場(chǎng)控制、智能家居、助聽器等多個(gè)領(lǐng)域拓展。同時(shí),他們背后還有小米、高通等企業(yè)的投資。

今年4月,大象聲科還官宣了一筆超億元人民幣的B輪融資,由蘭璞資本領(lǐng)投,佳康科技基金、紫金港資本跟投。這是它成立四年多以來公開的第4筆融資。

下面是我和大象聲科戰(zhàn)略總監(jiān)的交流干貨:

被羅永浩看中后一戰(zhàn)成名,小米高通投資!這家AI創(chuàng)企牛在哪?

▲大象聲科公司團(tuán)隊(duì)合影

一、硬核創(chuàng)始團(tuán)隊(duì)加持,用AI拓展人類聽覺感知

“與機(jī)器視覺相比,現(xiàn)在機(jī)器在聽這件事情上并不夠智能。”大象聲科戰(zhàn)略總監(jiān)談到,大象聲科成立的初衷就是希望通過機(jī)器聽覺技術(shù),賦予機(jī)器像人一樣的聽力,比如說能解決經(jīng)典的雞尾酒會(huì)問題。

何為雞尾酒會(huì)問題?簡(jiǎn)單來說,當(dāng)許多人同在一個(gè)場(chǎng)合內(nèi)說話時(shí),人類能通過注意力集中在某一個(gè)人的談話中,而忽略背景的其他談話或噪音,這也是人類聽覺系統(tǒng)的神奇之處。

但對(duì)機(jī)器來說,雞尾酒會(huì)問題是一個(gè)極其大的挑戰(zhàn)。因?yàn)槁暡ǖ闹丿B與互相干擾,讓機(jī)器很難在信號(hào)采集完畢后對(duì)它們進(jìn)行有效的分離處理,機(jī)器難以像人一樣有選擇性地去聽某一部分聲音。

這就是大象聲科想利用AI技術(shù)解決的問題,從另一個(gè)角度看,就是將AI(人工智能)用于人類聽覺感知范圍的拓展,“這也是我們創(chuàng)始人們一直希望實(shí)現(xiàn)的目標(biāo)?!睉?zhàn)略總監(jiān)說。

青萍始于微末。實(shí)際上,大象聲科如今成績(jī)與其創(chuàng)始團(tuán)隊(duì)的硬核實(shí)力息息相關(guān)。

大象聲科董事長(zhǎng)兼CEO苗健彰是位80后的連續(xù)創(chuàng)業(yè)者,擁有西安交大通信與信息工程學(xué)士及加拿大UBC軟件工程碩士學(xué)位,曾在溫哥華RBCIBM等全球知名企業(yè)就職。盡管一路順風(fēng)順?biāo)刈邅?,但苗健彰心底里仍保留著?chuàng)業(yè)成事的夢(mèng)想。

終于在2014年,苗健彰選擇了辭職下海,開始在溫哥華當(dāng)?shù)貏?chuàng)辦科技公司。此時(shí)適逢AI技術(shù)在北美蓬勃發(fā)展,他敏銳地發(fā)現(xiàn),在語(yǔ)音前端信號(hào)處理的技術(shù)鏈上游環(huán)節(jié),存在亟待深入研發(fā)的技術(shù)難題。換言之,就是存在商業(yè)機(jī)會(huì)。

經(jīng)過對(duì)市場(chǎng)和行業(yè)的廣泛調(diào)研與摸底,苗健彰更堅(jiān)定了從事語(yǔ)音處理AI技術(shù)研發(fā)與落地的方向和決心。而他這股創(chuàng)業(yè)熱忱下對(duì)技術(shù)創(chuàng)新及應(yīng)用落地的執(zhí)著,也打動(dòng)了時(shí)任俄亥俄州立大學(xué)終身教授,在語(yǔ)音人工智能領(lǐng)域處于全球領(lǐng)先地位的頂級(jí)科學(xué)家——汪德亮教授。

于是在2016年,汪教授成功加盟創(chuàng)業(yè)團(tuán)隊(duì)任首席科學(xué)家,并引薦了其實(shí)驗(yàn)室的訪問學(xué)者——時(shí)任內(nèi)蒙古大學(xué)教授的張學(xué)良。一直以來,張學(xué)良教授在CASADNN等技術(shù)研究與落地實(shí)施等領(lǐng)域有深厚造詣,隨后他也以CTO的身份成功加盟。

隨著兩位行業(yè)大咖的加盟,并基于創(chuàng)始團(tuán)隊(duì)對(duì)國(guó)內(nèi)AI市場(chǎng)藍(lán)海的判斷與未來蓬勃發(fā)展的看好,20172月,大象聲科在深圳正式注冊(cè)成立。

被羅永浩看中后一戰(zhàn)成名,小米高通投資!這家AI創(chuàng)企牛在哪?

▲從左至右分別為大象聲科董事長(zhǎng)兼CEO苗健彰,首席科學(xué)家汪德亮,CTO張學(xué)良

目前除了深圳總部外,大象聲科在南京、上海、臺(tái)灣等地均有分部,整體團(tuán)隊(duì)規(guī)模約70人,核心研發(fā)團(tuán)隊(duì)占比超60%。

基于學(xué)術(shù)界知名學(xué)者的深厚技術(shù)經(jīng)驗(yàn)和研究理論加持,大象聲科也開啟了機(jī)器學(xué)習(xí)語(yǔ)音賽道的新航線。

二、以AI通話降噪為核心的技術(shù)城池

技術(shù)是立足之本。在公司成立之初,大象聲科就瞄準(zhǔn)前端信號(hào)處理賽道,率先將深度學(xué)習(xí)技術(shù)應(yīng)用到語(yǔ)音增強(qiáng)中。

在此之前,前端信號(hào)處理領(lǐng)域較為傳統(tǒng)的主流方案是基于穩(wěn)態(tài)噪聲假設(shè)下,利用濾波器將噪音信號(hào)過濾掉,留下一部分相對(duì)清晰的語(yǔ)音信號(hào)。”戰(zhàn)略總監(jiān)解釋,但這降噪效果非常有限,因?yàn)檎鎸?shí)場(chǎng)景中存在的非穩(wěn)態(tài)噪音如馬路上的噪音、咖啡廳內(nèi)噪音和地鐵中的噪音等是不符合穩(wěn)態(tài)假設(shè)的。

而以汪德亮教授的CASA研究為導(dǎo)向的AI流派,則利用AI將人聲與非人聲進(jìn)行區(qū)分,從各類復(fù)雜的非穩(wěn)態(tài)環(huán)境噪音中分離與提取出清晰的人聲,從而突破了傳統(tǒng)語(yǔ)音信號(hào)處理的瓶頸。

在這一過程中,降噪的技術(shù)難題從最初的單純過濾問題變成了一個(gè)分類問題。也正是基于這一差異化技術(shù)路徑,大象聲科逐漸構(gòu)筑起了自己的技術(shù)壁壘。

算法方面,目前大象聲科核心聲學(xué)算法覆蓋智能降噪、回聲消除、混響抑制、語(yǔ)音喚醒、聲源定位、波束形成、聲紋識(shí)別、DHS深度嘯叫抑制等方面,為客戶提供一系列面向智能手機(jī)、藍(lán)牙耳機(jī)、PC、車載、助聽器等領(lǐng)域的智能語(yǔ)音增強(qiáng)和語(yǔ)音交互解決方案。

“我們的底層技術(shù)是通過AI去做語(yǔ)音信號(hào)處理,而通話降噪是我們技術(shù)落地的基礎(chǔ)之一。”戰(zhàn)略總監(jiān)告訴智東西,面向不同的細(xì)分賽道和聲學(xué)結(jié)構(gòu),大象聲科還相應(yīng)發(fā)布了一些列語(yǔ)音增強(qiáng)解決方案。

例如,大象聲科針對(duì)藍(lán)牙耳機(jī)推出的Vocplus Headphone解決方案,基于深度學(xué)習(xí)和計(jì)算聽覺場(chǎng)景分析理論而研發(fā),能夠?qū)崟r(shí)分離人聲和背景噪聲并提取清晰人聲,大大提升用戶在地鐵、商場(chǎng)、馬路等各類噪聲環(huán)境下的通話體驗(yàn)。目前,該方案還擁有Al單麥、AI雙麥、AI三麥和AI單麥骨傳融合版本。

“整體來看,得益于汪教授二三十年來的研究經(jīng)驗(yàn),我們的技術(shù)儲(chǔ)備非常多。”戰(zhàn)略總監(jiān)提到,包括幾年后的技術(shù)路徑,大象聲科都有非常清晰的規(guī)劃,并較為清楚地看到技術(shù)的發(fā)展方向,以此不斷拓展公司的技術(shù)節(jié)點(diǎn)與業(yè)務(wù)布局。

被羅永浩看中后一戰(zhàn)成名,小米高通投資!這家AI創(chuàng)企牛在哪?

▲大象聲科公司辦公區(qū)

三、創(chuàng)業(yè)之初的關(guān)鍵一役,業(yè)務(wù)拓展要啃最硬的骨頭

盡管擁有一支硬核的創(chuàng)始團(tuán)隊(duì)以及不少前沿技術(shù)經(jīng)驗(yàn),大象聲科在成立之初還是遇到了不少難題,融資就是公司起步的其中一道難關(guān)。

20181月,當(dāng)大象聲科拿到由紫金港資本、摯金資本及狗尾草智能投資的天使輪融資后,如何推動(dòng)技術(shù)方案落地是擺在他們面前的一大難題。

當(dāng)時(shí)公司只是幾個(gè)人組成的小團(tuán)隊(duì),在沒有大客戶背書的情況下,我們是很難直接被小米、華為等手機(jī)大廠商認(rèn)可的。”戰(zhàn)略總監(jiān)回憶道,因此最初大象聲科在尋求技術(shù)落地方面屢屢碰壁。

對(duì)永遠(yuǎn)有準(zhǔn)備的新玩家來說,機(jī)會(huì)也許會(huì)遲到,但從不會(huì)缺席。恰逢當(dāng)時(shí)的錘子科技正緊鑼密鼓地進(jìn)行新產(chǎn)品研發(fā),相對(duì)而言,老羅是一個(gè)喜歡嘗試新事物的人。”戰(zhàn)略總監(jiān)說,因此錘子科技也率先嘗試將大象聲科的Vocplus Telecom智能通話降噪方案用在堅(jiān)果手機(jī)上。

20184月,隨著大象聲科智能通話降噪方案在堅(jiān)果手機(jī)3上量產(chǎn),也讓小米、高通等廠商陸續(xù)看到了大象聲科的潛力與價(jià)值,客戶和融資機(jī)會(huì)隨之而來,而小米和高通也于20185月完成了對(duì)大象聲科的A輪投資,2018年也成為公司揚(yáng)帆起航的重要一年。

同時(shí)在這一年,大象聲科的Vocplus Gaming上行方案還成功在努比亞紅魔Mars量產(chǎn),并與高通聯(lián)合展示了基于高通驍龍855芯片的AI通話降噪方案。

被羅永浩看中后一戰(zhàn)成名,小米高通投資!這家AI創(chuàng)企牛在哪?

但手機(jī)并不是大象聲科AI通話降噪技術(shù)唯一的落地方向,從2019年起,大象聲科開始朝著更廣闊的業(yè)務(wù)邊界拓展。同年12月,其Vocplus Headphone方案首次在OPPO Enco Q1無線降噪耳機(jī)成功量產(chǎn),正式打開耳機(jī)業(yè)務(wù)。

緊接著在2020年3月,大象聲科正式發(fā)布Vocplus PC方案,并成為首個(gè)在Intel GNA上運(yùn)行的第三方語(yǔ)音方案商。這意味著,大象聲科的AI語(yǔ)音降噪算法技術(shù)再一次得到廣泛落地的機(jī)會(huì),包括聯(lián)想、惠普、戴爾等計(jì)算機(jī)公司,都是其重要的已有或潛在客戶。

實(shí)際上,2020年對(duì)大象聲科而言也是一個(gè)重要的發(fā)展節(jié)點(diǎn)。

6月其單麥克風(fēng)骨傳導(dǎo)AI降噪算法落地漫步者TWS耳機(jī),到9月首次打入華為供應(yīng)鏈,到年底聯(lián)想首款搭載其算法的PC在海外正式量產(chǎn)發(fā)布,再到2021年初同多家造車新勢(shì)力深度合作,大象聲科一路狂飆突進(jìn),AI降噪算法技術(shù)實(shí)現(xiàn)多點(diǎn)落地開花。

如今,大象聲科的朋友圈”已覆蓋高通、英特爾、Arm、恒玄等國(guó)內(nèi)外知名芯片廠商,以及華為、小米、OPPO、vivo、聯(lián)想、摩托羅拉等品牌企業(yè)。

被羅永浩看中后一戰(zhàn)成名,小米高通投資!這家AI創(chuàng)企牛在哪?

不過,從手機(jī)到耳機(jī)再拓展至PC,大象聲科一步步切入市場(chǎng)的思考邏輯是怎樣的呢?

“我們的思路是要先啃最硬的骨頭,但這并不代表我們要死磕?!睉?zhàn)略總監(jiān)談到,一方面,最難的方向也存在較大的市場(chǎng)空間,對(duì)公司發(fā)展來說是好事情;另一方面,從較高的難點(diǎn)開始起步,也能為公司帶來更廣闊的技術(shù)空間。

例如在TWS耳機(jī)興起之初,大象聲科認(rèn)為AI降噪算法落地耳機(jī)的其中一個(gè)難點(diǎn)在于,AI算法本身的尺寸較大,不僅需要經(jīng)過大量數(shù)據(jù)訓(xùn)練以形成神經(jīng)網(wǎng)絡(luò),還對(duì)算力有較高需求。但耳機(jī)的存儲(chǔ)空間比手機(jī)小得多,意味著它能承載的算法尺寸也更小。

因此,如何將大尺寸算法“裁剪”成能放進(jìn)耳機(jī)中的小尺寸算法,也是一個(gè)AI降噪算法落地耳機(jī)領(lǐng)域的一塊硬骨頭。

正是基于這一思路,大象聲科的業(yè)務(wù)不斷成熟拓展。自成立至今,大象聲科Vocplus AI智能語(yǔ)音增強(qiáng)與語(yǔ)音交互算法已賦能近億臺(tái)智能終端產(chǎn)品。

四、海外市場(chǎng)是重要業(yè)務(wù)方向,加速實(shí)現(xiàn)人聲之間分離

現(xiàn)階段,智能手機(jī)、藍(lán)牙耳機(jī)、PC領(lǐng)域和智能車載仍是大象聲科的主要落地方向,但每一個(gè)賽道對(duì)我們來說都十分重要。”戰(zhàn)略總監(jiān)談到,從業(yè)務(wù)層面看,未來大象聲科也會(huì)逐漸朝AR/VRIoT、穿戴設(shè)備以及助聽器等對(duì)人機(jī)交互需求高的場(chǎng)景進(jìn)一步延伸,持續(xù)拓展新平臺(tái)。

不僅如此,大象聲科還將進(jìn)一步朝海外市場(chǎng)拓展。因?yàn)槲覀児緢F(tuán)隊(duì)本就擁有較為國(guó)際化的傳統(tǒng)基因。他解釋,同時(shí)包括摩托羅拉、聯(lián)想等在內(nèi)的國(guó)際化品牌客戶,也為大象聲科的海外業(yè)務(wù)拓展提供了經(jīng)驗(yàn),這也將是公司接下來的業(yè)務(wù)發(fā)展方向之一。

而在技術(shù)層面,大象聲科仍將專注于AI智能聽覺技術(shù)的研發(fā)與應(yīng)用,加速在移動(dòng)通信、遠(yuǎn)程會(huì)議、藍(lán)牙耳機(jī)、助聽器、智能家居及車載聲場(chǎng)控制等領(lǐng)域的算法及專用芯片的研發(fā)。

被羅永浩看中后一戰(zhàn)成名,小米高通投資!這家AI創(chuàng)企牛在哪?

▲深度學(xué)習(xí)聲音分離技術(shù)的流程(圖源:IEEE Spectrum)

“我們要把基于AI做語(yǔ)音信號(hào)處理這件事情做到極致?!睉?zhàn)略總監(jiān)說。

在他看來,現(xiàn)階段機(jī)器在聽覺方面仍然很“愚蠢”,這意味著也有非常大的空間和應(yīng)用場(chǎng)景,可以用AI去做相關(guān)的語(yǔ)音信號(hào)處理工作。

“現(xiàn)在機(jī)器視覺領(lǐng)域的技術(shù)已經(jīng)很聰明了,不過都主要應(yīng)用在門禁、刷臉支付等場(chǎng)景,相對(duì)都是B端領(lǐng)域,但只要C端市場(chǎng)不爆發(fā),機(jī)器視覺技術(shù)就很難實(shí)現(xiàn)井噴爆發(fā)?!睉?zhàn)略總監(jiān)解釋,相比之下,當(dāng)下的耳機(jī)等消費(fèi)電子產(chǎn)品的火熱,也給人與機(jī)器聽覺的交互提供了更多的機(jī)會(huì)。

“如果AI技術(shù)能夠改變?nèi)伺c機(jī)器在語(yǔ)音交互方面的功能,這不僅能推動(dòng)機(jī)器聽覺技術(shù)的成熟落地,也能更快地市場(chǎng)發(fā)展帶來更大的經(jīng)濟(jì)效益?!彼f。

結(jié)語(yǔ):機(jī)器聽覺領(lǐng)域發(fā)展仍道阻路長(zhǎng)

在智東西與大象聲科戰(zhàn)略總監(jiān)的深入交流中,我們也看到一幅描繪著AI語(yǔ)音技術(shù)創(chuàng)新落地的商業(yè)藍(lán)圖,正在我們面前徐徐鋪開。

盡管與機(jī)器視覺技術(shù)相比,機(jī)器聽覺技術(shù)仍顯得較為年輕,但在其大量的細(xì)分賽道之下,許多玩家爭(zhēng)相入局,各類AI語(yǔ)音解決方案百花齊放,也為機(jī)器聽覺技術(shù)的發(fā)展注入了源源不斷的生命力。

相信在未來,這條技術(shù)長(zhǎng)河中的每位玩家都能找到屬于自己的位置,共同推動(dòng)機(jī)器聽覺領(lǐng)域的應(yīng)用爆發(fā)、技術(shù)繁榮與發(fā)展。