2019年,對(duì)于所有人工智能公司而言,AI的規(guī)?;虡I(yè)落地都是一道“魔考”。?

近日,搜狗公司做了一件事,向錄音筆硬件廠商開(kāi)放搜狗聽(tīng)寫(xiě)服務(wù),接入這一能力的錄音筆,就可以像搜狗AI錄音筆一樣智能,實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)寫(xiě)、實(shí)時(shí)互譯、智能編輯等功能。 ?

這件事乍一看平淡無(wú)奇,AI賦能產(chǎn)業(yè)也是老生常談的話題。但如果用時(shí)間線把搜狗布局AI的打法串起來(lái),你會(huì)發(fā)現(xiàn)這一背后別有洞天。?

從最早的技術(shù)開(kāi)放平臺(tái)搜狗“知音引擎”到硬件產(chǎn)品AI翻譯機(jī)、錄音筆,再到如今開(kāi)放產(chǎn)品背后的AI服務(wù)能力,搜狗AI落地又進(jìn)入一個(gè)新的階段,服務(wù)成了輸出的重點(diǎn)。?

搜狗AI交互技術(shù)中心總經(jīng)理王硯峰的一句話更是直指AI商業(yè)落地的“痛點(diǎn)”,“只做技術(shù)是不夠的,沒(méi)有面向場(chǎng)景的深度優(yōu)化,技術(shù)就是一種雞肋”。?

一、轉(zhuǎn)變背后:硬件打磨技術(shù)體驗(yàn),軟件搶占市場(chǎng)

早在2016年,搜狗開(kāi)始做語(yǔ)音開(kāi)放平臺(tái)“知音引擎”,并嘗試將技術(shù)推向行業(yè),但探索一段時(shí)間后,搜狗決定暫時(shí)不將這條路作為主攻方向。

原因是時(shí)機(jī)不到。在AI平臺(tái)發(fā)展早期,軟件免費(fèi)的思路還停留在很多人心中,“你給我技術(shù),我?guī)湍阕銎放票硶?shū)”成為一種早期玩法,再加上通用技術(shù)平臺(tái)的體驗(yàn)并不理想,技術(shù)提供商沒(méi)有獲得行業(yè)太多認(rèn)可。 ?

另一方面,面對(duì)百度、科大訊飛等玩家的語(yǔ)音平臺(tái),盡管搜狗也有不錯(cuò)的技術(shù)積累,但在生態(tài)資源的比拼上也并不占優(yōu)勢(shì)。

因此,從2017年下半年開(kāi)始,搜狗不再大力去推技術(shù)開(kāi)放平臺(tái),而是沉下心來(lái)將技術(shù)下沉,打磨場(chǎng)景與硬件,并在2018年上半年推出AI翻譯機(jī)和AI錄音筆產(chǎn)品。

?從打造智能硬件到開(kāi)放聽(tīng)寫(xiě)服務(wù),搜狗AI之變

以錄音筆為例,傳統(tǒng)的錄音筆功能單一,主要就是錄音。而搜狗AI錄音筆則不同,錄音后,它可以提供準(zhǔn)確率高達(dá)95%以上的語(yǔ)音轉(zhuǎn)寫(xiě),還具備實(shí)時(shí)互譯、云端分享、中英同傳等多種AI 功能。憑借著語(yǔ)音轉(zhuǎn)寫(xiě)和離線翻譯等方面優(yōu)秀的表現(xiàn),搜狗錄音筆上市后,短時(shí)間內(nèi)就在多個(gè)電商平臺(tái)取得了單品銷(xiāo)量第一的成績(jī),在這一領(lǐng)域構(gòu)建了核心的競(jìng)爭(zhēng)優(yōu)勢(shì)。

與此同時(shí),行業(yè)的觀念也開(kāi)始轉(zhuǎn)變。行業(yè)一些玩家意識(shí)到,通用技術(shù)平臺(tái)雖然免費(fèi),但并不會(huì)針對(duì)具體場(chǎng)景做優(yōu)化,往往導(dǎo)致產(chǎn)品體驗(yàn)不足。在尋找更優(yōu)的技術(shù)方案同時(shí),行業(yè)為技術(shù)付費(fèi)的意識(shí)開(kāi)始增強(qiáng)。

這時(shí)不少公司主動(dòng)找到搜狗,甚至包括一些硬件上的競(jìng)爭(zhēng)對(duì)手,詢(xún)問(wèn)能否購(gòu)買(mǎi)搜狗的AI翻譯能力。王硯峰回憶道,“盡管提供技術(shù)平臺(tái)和提供服務(wù)能力都是ToB,但兩者的感受完全不同,最初行業(yè)都涌入技術(shù)開(kāi)放平臺(tái),但在方案上沒(méi)有誰(shuí)真正不可替代,客戶(hù)可以在多家之間來(lái)回切換;但當(dāng)你在一個(gè)場(chǎng)景形成獨(dú)特優(yōu)勢(shì)、構(gòu)建核心壁壘后,行業(yè)會(huì)更尊重你,愿意購(gòu)買(mǎi)你的服務(wù)能力?!?/p>

這成為搜狗再一次轉(zhuǎn)身,改變AI的落地方向的導(dǎo)火索。?

隨著硬件之路的深入,搜狗意識(shí)到一個(gè)問(wèn)題,在C端硬件市場(chǎng),即使是最大的玩家,往往也很難占據(jù)50%以上的市場(chǎng)份額。這跟軟件完全不同,軟件可以發(fā)揮網(wǎng)絡(luò)效應(yīng),一家獨(dú)大,占據(jù)一個(gè)市場(chǎng)80%以上的份額。典型的代表就是手機(jī)市場(chǎng)的多品牌和安卓操作系統(tǒng)的一家獨(dú)大。?

此外,錄音筆是一個(gè)相對(duì)狹小的市場(chǎng),我國(guó)每年的銷(xiāo)量均在400萬(wàn)臺(tái)徘徊,并且這一市場(chǎng)有搜狗、科大訊飛等科技公司,還有索尼、愛(ài)國(guó)者等硬件企業(yè),競(jìng)爭(zhēng)同樣激烈。?

再加上搜狗是一家“技術(shù)范”十足的公司,線下渠道能力以及銷(xiāo)售能力相比傳統(tǒng)的硬件廠商并不占優(yōu)勢(shì)。

這意味著搜狗很難在硬件上一家獨(dú)大。如何搶占更大的市場(chǎng)份額?如果硬件不能,軟件上是否有機(jī)會(huì)?經(jīng)過(guò)搜狗內(nèi)部一番思考,王硯峰認(rèn)為,軟件這條路是有希望的,經(jīng)過(guò)場(chǎng)景的深度優(yōu)化后,即使面對(duì)BAT等互聯(lián)網(wǎng)巨頭,搜狗在AI翻譯、語(yǔ)音轉(zhuǎn)寫(xiě)上也具有明顯優(yōu)勢(shì)。?

因此,搜狗決定再往前邁一步,開(kāi)放AI錄音筆背后的聽(tīng)寫(xiě)服務(wù),為錄音筆行業(yè)提供OS系統(tǒng),成為軟件服務(wù)的核心提供者。?

這是否又意味著硬件對(duì)搜狗的重要性會(huì)下降?王硯峰表示,硬件依然是主戰(zhàn)場(chǎng),和AI一樣,都是搜狗的幾大戰(zhàn)略之一,因此硬件和開(kāi)放服務(wù)對(duì)于搜狗同樣重要。?

在他看來(lái),智能硬件和AI技術(shù)研究是密不可分的,硬件是AI技術(shù)的載體,AI是硬件產(chǎn)品的靈魂。只有面向用戶(hù)體驗(yàn),深入場(chǎng)景打磨技術(shù),將技術(shù)、硬件、場(chǎng)景融合才能構(gòu)建AI的競(jìng)爭(zhēng)力。另一方面,開(kāi)放聽(tīng)寫(xiě)服務(wù),可以將搜狗打磨好的技術(shù)方案,以服務(wù)能力對(duì)外輸出,推動(dòng)搜狗AI的規(guī)模化落地。

用硬件打磨技術(shù)體驗(yàn),用軟件服務(wù)搶占市場(chǎng)、規(guī)?;涞?,這一策略正在成為搜狗AI新的打法,也體現(xiàn)了其對(duì)AI落地更深層的思考。?

二、“只做技術(shù)是不夠的,關(guān)鍵是服務(wù)能力”

回到錄音筆行業(yè),我們今天見(jiàn)到的錄音筆,無(wú)論是外觀還是功能,跟2000年前后的產(chǎn)品并無(wú)太多變化。

也正是傳統(tǒng)錄音筆單一的功能、低頻次的使用場(chǎng)景,智能手機(jī)正在成為它的替代品,目前手機(jī)錄音APP已可以完成大部分場(chǎng)景的錄音,有力地沖擊這一市場(chǎng)的發(fā)展。?

這也導(dǎo)致錄音筆一直是個(gè)小眾市場(chǎng),近幾年每年的銷(xiāo)量都在430萬(wàn)臺(tái)左右,銷(xiāo)量一直停滯不前甚至一度下滑。而各家比拼的無(wú)非音質(zhì)、電量、存儲(chǔ)空間的提升,至于用戶(hù)使用錄音筆到底做什么,背后的服務(wù)體驗(yàn)如何,行業(yè)鮮有思考。

搜狗本次開(kāi)放的聽(tīng)寫(xiě)服務(wù),則依托自身扎實(shí)的AI技術(shù)和錄音筆場(chǎng)景的深度實(shí)踐。去年3月搜狗發(fā)布了一款A(yù)I錄音筆,經(jīng)過(guò)用戶(hù)較長(zhǎng)一段時(shí)間的使用,搜狗對(duì)海量的用戶(hù)行為數(shù)據(jù)進(jìn)行深入分析后,第一次為行業(yè)呈現(xiàn)了用戶(hù)的真實(shí)畫(huà)像。?

從打造智能硬件到開(kāi)放聽(tīng)寫(xiě)服務(wù),搜狗AI之變?

搜狗發(fā)現(xiàn),使用錄音筆的第一大場(chǎng)景并非大家預(yù)想的媒體采訪,而是企業(yè)內(nèi)部的商務(wù)場(chǎng)景,比如會(huì)議記錄,占比高達(dá)44%;第二大場(chǎng)景是企業(yè)內(nèi)部培訓(xùn),占比為24%;第三大場(chǎng)景才是采訪,占比21%,這三大場(chǎng)景加在一起占了錄音筆使用場(chǎng)景的90%。?

而且在使用錄音筆的用戶(hù)中,每周使用頻次超過(guò)三次以上的用戶(hù)占比達(dá)60%,每周超過(guò)10次的占比達(dá)15%;在錄音時(shí)長(zhǎng)上,41%的用戶(hù)錄音超過(guò)10分鐘。 可見(jiàn),大比重的用戶(hù)保持較高的使用頻次和使用時(shí)長(zhǎng)。?

這三大核心場(chǎng)景也促使搜狗進(jìn)一步思考,AI可以為用戶(hù)帶來(lái)什么價(jià)值。比如一場(chǎng)會(huì)議錄音可能長(zhǎng)達(dá)數(shù)小時(shí),語(yǔ)音轉(zhuǎn)成文字長(zhǎng)達(dá)數(shù)萬(wàn)字,用戶(hù)如何準(zhǔn)確、輕松的整理內(nèi)容,快速出稿,以及編輯完后,如何快速的分享給同事等等。

基于這些思考,搜狗更有針對(duì)性的將AI技術(shù)融入聽(tīng)寫(xiě)服務(wù)中,為行業(yè)輸出優(yōu)質(zhì)的產(chǎn)品體驗(yàn)。

從打造智能硬件到開(kāi)放聽(tīng)寫(xiě)服務(wù),搜狗AI之變?

具體而言,首先搜狗開(kāi)放了高準(zhǔn)確度的語(yǔ)音轉(zhuǎn)寫(xiě)能力,并支持10余種語(yǔ)音識(shí)別及方言識(shí)別。它采用業(yè)界領(lǐng)先的深層Transformer-based 端到端聲學(xué)模型、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型、智能標(biāo)點(diǎn)預(yù)測(cè)技術(shù)等,語(yǔ)音轉(zhuǎn)寫(xiě)準(zhǔn)確率可達(dá)95% 以上。?

第二,麥克風(fēng)陣列和語(yǔ)音增強(qiáng)技術(shù)。搜狗基于“云端+本地”結(jié)合,打造了雙麥語(yǔ)音方案,并針對(duì)遠(yuǎn)場(chǎng)噪音環(huán)境,做了專(zhuān)門(mén)的降噪算法。

第三,個(gè)性化語(yǔ)音識(shí)別技術(shù)。語(yǔ)音轉(zhuǎn)寫(xiě)時(shí),關(guān)鍵詞識(shí)別錯(cuò)誤給用戶(hù)體驗(yàn)帶來(lái)的體驗(yàn)是糟糕的。搜狗通過(guò)打通輸入法賬號(hào)體系,基于產(chǎn)品中用戶(hù)數(shù)據(jù)的使用習(xí)慣,自動(dòng)挖掘用戶(hù)的個(gè)性化詞組,使用戶(hù)常用語(yǔ)的轉(zhuǎn)寫(xiě)錯(cuò)誤率下降40%以上。?

第四,智能編輯與多端同步編輯。語(yǔ)音轉(zhuǎn)寫(xiě)不是目的,用戶(hù)的最終目的是編輯成文。通過(guò)云端智能糾錯(cuò)編輯技術(shù),搜狗聽(tīng)寫(xiě)可以針對(duì)置信度低的轉(zhuǎn)寫(xiě)結(jié)果提供多個(gè)候選詞,針對(duì)口頭語(yǔ)、重復(fù)詞進(jìn)行自動(dòng)文本順滑。此外它還支持三到四人的人聲識(shí)別,語(yǔ)音轉(zhuǎn)寫(xiě)時(shí)在內(nèi)容上自動(dòng)區(qū)分說(shuō)話人。?

第五,云存儲(chǔ)服務(wù)。用戶(hù)的錄音和文字都可以長(zhǎng)期安全地保存在云端。?

搜狗王硯峰解釋道,市面上做AI技術(shù)輸出的公司,更多是把技術(shù)以API接口的形式輸出,但“只做技術(shù)是不夠的,沒(méi)有面向場(chǎng)景的深度優(yōu)化,技術(shù)就是一種雞肋”。?

區(qū)別與此,搜狗重點(diǎn)做了兩件事,一是把中臺(tái)服務(wù)做得更完善,包含賬戶(hù)管理、轉(zhuǎn)寫(xiě)技術(shù)、云同步功能、智能編輯等;二是提供了服務(wù)接入層,合作伙伴可以通過(guò)藍(lán)牙開(kāi)放協(xié)議零成本接入,讓用戶(hù)通過(guò)PC 和移動(dòng)端享用搜狗聽(tīng)寫(xiě)的增值服務(wù)。?

回到錄音筆行業(yè),單純比拼硬件的商業(yè)模式已經(jīng)持續(xù)了近20年。而在搜狗聽(tīng)寫(xiě)服務(wù)背后,市場(chǎng)的天花板似乎正在打開(kāi),以AI+軟件服務(wù)+硬件的方式,正在重新定義錄音筆和新的商業(yè)模式。 ?

三、聽(tīng)寫(xiě)服務(wù)的基石:搜狗輸入法

搜狗聽(tīng)寫(xiě)服務(wù)的背后,有一個(gè)容易被忽視的存在——搜狗輸入法,它對(duì)于聽(tīng)寫(xiě)服務(wù),乃至搜狗AI都意義重大。?

目前搜狗輸入法APP 已擁有超4.5 億的日活用戶(hù),PC 端更是占據(jù)99% 的市場(chǎng)份額,語(yǔ)音請(qǐng)求峰值已超7 億次,穩(wěn)居全球最大的中文語(yǔ)音應(yīng)用。?

搜狗輸入法背后的龐大用戶(hù)和海量數(shù)據(jù),首先為聽(tīng)寫(xiě)服務(wù)提供了絕佳的“練兵場(chǎng)”,聽(tīng)寫(xiě)服務(wù)中核心的語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)早就在輸入法中上線,不同的是,輸入法中語(yǔ)音轉(zhuǎn)寫(xiě)的場(chǎng)景以單句話為主,而錄音筆中語(yǔ)音轉(zhuǎn)寫(xiě)是更長(zhǎng)的篇幅。經(jīng)過(guò)海量數(shù)據(jù)和真實(shí)場(chǎng)景的優(yōu)化,搜狗的語(yǔ)音轉(zhuǎn)寫(xiě)才能達(dá)到95%以上的效果。?

從打造智能硬件到開(kāi)放聽(tīng)寫(xiě)服務(wù),搜狗AI之變

其次,搜狗輸入法提供“入口”優(yōu)勢(shì),移動(dòng)端和PC端的輸入法都支持搜狗聽(tīng)寫(xiě)服務(wù)。在PC輸入法上,聽(tīng)寫(xiě)服務(wù)作為一項(xiàng)應(yīng)用直接內(nèi)置到PC輸入法的工具箱中,當(dāng)錄音筆插到電腦上后,輸入法就能自動(dòng)探測(cè)到它,幫助用戶(hù)進(jìn)行音頻管理,并提供聽(tīng)寫(xiě)服務(wù)。針對(duì)存量錄音筆,這一方式可謂直接增加了其附加值。

憑借著99%的市場(chǎng)覆蓋率,PC輸入法有一個(gè)獨(dú)特的優(yōu)勢(shì),凡是工具性、效率性的工具都可以?xún)?nèi)置其中,不需要二次安裝,用戶(hù)隨時(shí)調(diào)用,這大大提升了用戶(hù)使用的便捷性。

在移動(dòng)端,搜狗在輸入法APP中也開(kāi)放了聽(tīng)寫(xiě)服務(wù)的接口,一方面4.5億日活用戶(hù)帶來(lái)一個(gè)龐大的市場(chǎng),能夠讓用戶(hù)更便捷的使用聽(tīng)寫(xiě)服務(wù),龐大使用量也可以更快速的迭代聽(tīng)寫(xiě)服務(wù)背后的AI技術(shù)和產(chǎn)品體驗(yàn)。?

另一方面,將聽(tīng)寫(xiě)服務(wù)直接內(nèi)置到輸入法上,避免了賬號(hào)打通的問(wèn)題,可以更便捷的使用賬號(hào)的歷史數(shù)據(jù)提供個(gè)性化的聽(tīng)寫(xiě)服務(wù)。

不只是聽(tīng)寫(xiě)服務(wù),在搜狗AI的版圖中,輸入法就是AI技術(shù)的練兵場(chǎng),它為技術(shù)研究設(shè)置問(wèn)題,為技術(shù)的演進(jìn)提供源源不斷的數(shù)據(jù)洪流,又提供最佳的落地載體,扮演著“源頭活水”的角色。?

王硯峰也表示,開(kāi)放聽(tīng)寫(xiě)服務(wù)只是搜狗的第一步,未來(lái)搜狗將會(huì)進(jìn)一步發(fā)揮輸入法的入口優(yōu)勢(shì),將自身的語(yǔ)音翻譯能力都以服務(wù)的形式開(kāi)放出來(lái),為用戶(hù)帶來(lái)更大價(jià)值的同時(shí),搶占更廣闊的軟件服務(wù)市場(chǎng)。

從輸出技術(shù)到打造硬件,再到提供服務(wù),是搜狗AI發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn),也是搜狗AI落地的深化。