智東西(公眾號(hào):zhidxcom)
作者 | 韋世瑋
編輯 | 漠影

搜狗在超寫實(shí)3D數(shù)字人領(lǐng)域再度攻破一城,“跨界”手語數(shù)字人領(lǐng)域?qū)崿F(xiàn)新突破!

5月17日,搜狗發(fā)布全球首個(gè)手語AI合成主播“小聰”,能夠自然流暢地為聽障者播報(bào)手語,在測評(píng)中可懂度約85%。

與搜狗以往發(fā)布的3D AI合成主播不同,“小聰”并不能穿越攝影棚為大家口播新聞,也不需要真人原型進(jìn)行形象特征和表情肢體的數(shù)據(jù)采集,只是通過靈活的手勢動(dòng)作和表情,為聽力障礙人士提供“無聲的溝通”。

從技術(shù)上來看,“小聰”的背后基于搜狗長期研發(fā)積累的AI分身技術(shù),結(jié)合原力科技的行業(yè)領(lǐng)先3D重光照掃描還原完成的手語數(shù)字人高精度模型及采集的動(dòng)畫數(shù)據(jù),輔助自研的表情肢體手勢捕捉技術(shù),生產(chǎn)出了高度還原真人發(fā)膚、形象逼真、動(dòng)作自然生動(dòng)的數(shù)字人模型。

從3D AI合成主播到手語AI合成主播,搜狗的分身技術(shù)實(shí)現(xiàn)了哪些突破和挑戰(zhàn)?“小聰”的誕生又將會(huì)給社會(huì)帶來哪些改變?它未來還有哪些需要不斷完善的地方?

為了更深一步了解“小聰”的誕生,智東西與少數(shù)媒體對(duì)搜狗AI交互技術(shù)部總經(jīng)理陳偉的團(tuán)隊(duì)進(jìn)行了采訪,在探究“小聰”背后的技術(shù)新突破的同時(shí),進(jìn)一步挖掘搜狗對(duì)“小聰”未來的戰(zhàn)略布局和構(gòu)思。

一、手語主播的三大技術(shù)優(yōu)勢,表情唇動(dòng)逼真豐富

何為搜狗分身技術(shù)?簡單來看,該技術(shù)集成了超寫實(shí)3D數(shù)字人建模、機(jī)器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、實(shí)時(shí)面部動(dòng)作生成及驅(qū)動(dòng)等多項(xiàng)AI技術(shù)。正是基于這項(xiàng)技術(shù),搜狗才能讓超寫實(shí)3D數(shù)字人具備自然可懂的手語主播能力。

整體來看,“小聰”在數(shù)字人寫實(shí)度、手語表達(dá)可懂度、手語展現(xiàn)接受度三大方面,都躍上了新的技術(shù)臺(tái)階。

1、超寫實(shí)的逼真數(shù)字人效果

數(shù)字人寫實(shí)度大幅提升的好處在于,它能顯著提升手語播報(bào)帶來的真實(shí)感與親切感,進(jìn)一步提高播報(bào)用戶體驗(yàn)。

為此,“小聰”使用了行業(yè)最領(lǐng)先的3D重光照掃描還原、面部肌肉驅(qū)動(dòng)、表情肢體手勢捕捉技術(shù),能生產(chǎn)出高度還原真人發(fā)膚、形象逼真、動(dòng)作自然生動(dòng)的數(shù)字人模型。

2、高可懂度的手語表達(dá)能力

手語有沒有像自然語言一樣有一套完整的語言體系?實(shí)際上,手語也有一套自己通用的詞典。

“小聰”基于我國在2019年發(fā)布的《國家通用手語詞典》,健聽人只需輸入日常生活中的語言文本,就能低延遲地生成高準(zhǔn)確率的手語語言表征。同時(shí),通過搜狗分身的多模態(tài)生成技術(shù),系統(tǒng)能實(shí)時(shí)預(yù)測生成對(duì)應(yīng)的超寫實(shí)3D數(shù)字人驅(qū)動(dòng)參數(shù),并快速生成數(shù)字人手語播報(bào)視頻。

陳偉談到,“小聰”手語播報(bào)的可懂度在測評(píng)中達(dá)85%以上,能有效幫助聽障者克服理解障礙,達(dá)成信息有效傳遞。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術(shù)是核心

3、高接受度的手語展現(xiàn)效果

作為一種視覺語言,手語表達(dá)不僅僅需要依靠手勢,還需要配合面部表情、唇動(dòng)、姿態(tài)等方式來傳達(dá)更準(zhǔn)確的意圖,也稱為“非手控信息”的表達(dá)。因此,除了高可懂度的手語表達(dá)能力之外,“小聰”的手語表達(dá)細(xì)節(jié)也十分真實(shí)豐富。

通過搜狗機(jī)器翻譯,系統(tǒng)能生成覆蓋手部動(dòng)作、面部表情、口動(dòng)唇動(dòng)等多個(gè)維度的手語表征信息。同時(shí),基于搜狗多模態(tài)端到端生成模型進(jìn)行聯(lián)合建模及預(yù)測,生成高準(zhǔn)確率的動(dòng)作、表情、唇動(dòng)等序列,從而實(shí)現(xiàn)自然、地道、接受度更高的手語表達(dá)效果。

基于搜狗分身技術(shù),“小聰”還能實(shí)現(xiàn)快速生成和批量復(fù)制,成為全年無休的“勞?!保玫貛椭犝先耸拷鉀Q日常生活、公共服務(wù)、特殊教育等多個(gè)場景下的溝通不暢問題。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術(shù)是核心

二、面向2700萬聽障人群,手語合成背后的語言鴻溝

也許有人認(rèn)為,現(xiàn)在的語音轉(zhuǎn)文字技術(shù)如此成熟了,新聞、影視等作品都有字幕,為什么還要大費(fèi)周章地開發(fā)手語AI合成主播技術(shù)?相比以往的AI合成主播,它的技術(shù)到底難在哪?

據(jù)世界衛(wèi)生組織發(fā)布的數(shù)據(jù),目前全球聽力障礙人群高達(dá)4.66億人,在我國則有2700萬人。其中,受教育程度和了解健聽人語言體系越來越高地主要集中在年輕聽障人群中,還有不少中老年聽障人士在學(xué)習(xí)上仍有難度。

“我國2700萬聽障人群的教育程度是參差不齊的,上了高中、大學(xué)的聽障人僅占了很小的比例?!标悅フf,從學(xué)習(xí)角度來看,由于聽障人士在聽力上天生有障礙,少了一個(gè)能更快學(xué)習(xí)語言的因素。所以短期內(nèi),手語仍是聽障人士主要的學(xué)習(xí)方式,更是他們主要的表達(dá)方式,難以被字幕所替代。

盡管也有一些電視節(jié)目能夠提供手語解說,但多以正常語序編排,與手語的特殊表達(dá)結(jié)構(gòu)不符,讓大部分聽障人士只能理解不到60%的內(nèi)容。這就導(dǎo)致了許多聽障人士無法常態(tài)化、高質(zhì)量地接收信息,逐漸變得難以融入社會(huì),最終成為被邊緣化群體。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術(shù)是核心

與此同時(shí),當(dāng)搜狗聯(lián)合新華社在2020年5月發(fā)布全球首個(gè)3D AI合成主播后,搜狗AI交互技術(shù)團(tuán)隊(duì)開始思考,自己在數(shù)字人方向上是否還能沖上更高的技術(shù)壁壘?同時(shí)又能找到有強(qiáng)烈需求的場景?

因此,一群對(duì)手語一竅不通的研發(fā)團(tuán)隊(duì)開始與許多聽障人士進(jìn)行探討,嘗試挖掘手語AI合成主播這條賽道更大的可能性,并在內(nèi)部組建了一個(gè)除語言、產(chǎn)品、研發(fā)三大體系外的顧問團(tuán),包含中國聾人協(xié)會(huì)的專業(yè)人士、手語學(xué)校的老師,以及手語AI合成主播的真實(shí)用戶——聽障人士。

但AI合成主播技術(shù)深厚如搜狗,在面對(duì)手語合成技術(shù)這條新賽道上,也面臨著不少挑戰(zhàn)。

“我們最開始接觸手語的時(shí)候發(fā)現(xiàn),它跟我們之前了解的所有語言語種都不太一樣,他是一個(gè)視覺語言,并不能直接用語音語言的方式去解決手語的事情。”一位參與研發(fā)的團(tuán)隊(duì)成員談到,在手語語言體系的構(gòu)建過程中,有三個(gè)最主要的難點(diǎn):

1、手語語序結(jié)構(gòu)獨(dú)特,翻譯難

手語的語序結(jié)構(gòu)和漢語語言大有不同,例如漢語中的“貓追老鼠”,在手語表達(dá)中為“貓、老鼠、追”;“開車不準(zhǔn)喝酒”在手語表達(dá)中為“開車、喝酒、不準(zhǔn)”。

這些跟漢語語序表達(dá)的不同,使得研發(fā)團(tuán)隊(duì)難以直接采用原有的語料庫和數(shù)據(jù)庫進(jìn)行算法訓(xùn)練。因此,搜狗專門建立了相應(yīng)的語言規(guī)則嘗試進(jìn)行“漢語-手語”的語序轉(zhuǎn)換,先將手語進(jìn)行翻譯后再給算法進(jìn)行訓(xùn)練。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術(shù)是核心

2、詞匯類型缺失,表達(dá)差異大

手語的詞匯類型并不像漢語那么豐富,并沒有量詞、程度副詞,更多是直接省略或是采用肢體語言來表達(dá)。例如漢語中的“我買兩支鉛筆、一本書”,在手語表達(dá)中為“我買鉛筆、二、書、一”;“大雪紛飛”在手語表達(dá)中則是表達(dá)一個(gè)“雪”,然后在雪的基礎(chǔ)上加大身體的擺動(dòng)來體現(xiàn)程度副詞。

因此在詞匯方面,搜狗AI交互團(tuán)隊(duì)還建立了一個(gè)手語到漢語之間的映射詞典,嘗試去解決手語和漢語之間詞匯上的差異問題。

3、特有非手控信息,需建立新表情庫

漢語的博大精深在于,哪怕是同一句話,用不同音調(diào)或語氣也能表達(dá)出不同信息,這讓手語表達(dá)的難度系數(shù)大大提高。因此手語也有特有的非手控信息,通過不同的表情、口動(dòng)、身體姿態(tài)等方式來傳達(dá)信息。例如一句“我做的好不好”,皺眉時(shí)是詢問的語氣,挑眉時(shí)則是感嘆的語氣。

非手控信息也是搜狗AI交互團(tuán)隊(duì)在開發(fā)過程中遇到的最大難點(diǎn),針對(duì)這一問題,搜狗目前正嘗試通過建立數(shù)據(jù)庫等規(guī)則方式來解決。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術(shù)是核心

三、技術(shù)難度系數(shù)增大,還需解決恐怖谷難題

值得注意的是,手語語言中的三大問題僅僅是語言體系建立方面的難點(diǎn),具體落實(shí)到技術(shù)方面,搜狗也面臨著不少挑戰(zhàn)。

一是數(shù)據(jù)挑戰(zhàn)。陳偉談到,國內(nèi)從來沒有這樣規(guī)?;厮伎既绾螛?gòu)建一個(gè)能讓AI學(xué)習(xí)的手語大數(shù)據(jù)庫,無論是數(shù)據(jù)體系的構(gòu)建、標(biāo)注的方法,以及如何找到手語專業(yè)老師幫助團(tuán)隊(duì)高效地推進(jìn)研發(fā), 這些對(duì)搜狗AI交互團(tuán)隊(duì)來說都是一個(gè)新的技術(shù)挑戰(zhàn)。

二是算法挑戰(zhàn)。無論是機(jī)器翻譯還是數(shù)字人生成,搜狗都要面臨更多機(jī)器語言特點(diǎn)的定制。以往搜狗做3D AI合成主播時(shí)一直在強(qiáng)調(diào)唇形、表情,但在手語AI合成主播上還需加上嘴形、表情、姿態(tài)和手部動(dòng)作等維度,并保證在同一時(shí)間內(nèi)完全對(duì)齊。

三是3D驅(qū)動(dòng)挑戰(zhàn)。手語表達(dá)的特殊性需要手語AI合成主播實(shí)現(xiàn)連續(xù)大幅手部動(dòng)作的自然生成?;诖耍压吠ㄟ^3D建模技術(shù)結(jié)合AI實(shí)時(shí)驅(qū)動(dòng),大大提升手語AI合成主播動(dòng)作的靈活性、可控性和連貫度,提升動(dòng)作表達(dá)能力。

“我們也一直和顧問團(tuán)保持非常緊密的聯(lián)系和溝通,對(duì)專業(yè)人士和聽障人士覺得手勢、位置、運(yùn)動(dòng)等不標(biāo)準(zhǔn)的地方進(jìn)行及時(shí)糾正,這樣才能確保我們每一步的技術(shù)迭代都能時(shí)刻得到最真實(shí)的反饋?!标悅フ劦?。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術(shù)是核心

當(dāng)一個(gè)數(shù)字人無限接近真人時(shí),不少細(xì)節(jié)容易讓人感到害怕。例如有人認(rèn)為,搜狗去年推出的3D數(shù)字人張嘴時(shí),看不到聲帶或咽喉的共振,或是模型偶爾的穿模,這些都容易讓人產(chǎn)生恐懼感。但如果將合成主播做成卡通形象,盡管能解決恐怖谷問題,但用戶和數(shù)字人交互的親切感、體驗(yàn)感也大大降低。

“當(dāng)我看到一個(gè)數(shù)字人時(shí)沒有產(chǎn)生恐怖谷效應(yīng),我會(huì)覺得我和數(shù)字人之間時(shí)有情感連接的,交流時(shí)就像是面對(duì)面的溝通?!标悅ヌ岬?,這也是搜狗做數(shù)字人的初衷。

為了減少“小聰”的恐怖谷效應(yīng),搜狗對(duì)“小聰”的皮膚材質(zhì)、紋理、手勢形狀等渲染都進(jìn)行了優(yōu)化,寫實(shí)度大大提高。“我們認(rèn)為在未來一到兩年的時(shí)間內(nèi),3D建模會(huì)突破恐怖谷效應(yīng)?!?/strong>陳偉說。

同時(shí)在他看來,真正讓人覺得不恐怖的狀態(tài)還需要在數(shù)字人的表達(dá)能力和對(duì)話能力上進(jìn)行突破。“只有數(shù)字人或AI越來越像人的時(shí)候,人機(jī)交互的可能性才能做到真正的自然交互,才能實(shí)現(xiàn)人和數(shù)字人的情感連接?!标悅ソ忉?,這也是搜狗堅(jiān)定不移地把重心放在數(shù)字人超寫實(shí)方面的原因。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術(shù)是核心

四、今年Q4規(guī)模應(yīng)用,手語AI合成主播的兩大落地方向

現(xiàn)階段,“小聰”手語AI合成主播從數(shù)據(jù)到算法,再到3D建模等工程化技術(shù)仍在持續(xù)地優(yōu)化迭代。陳偉預(yù)計(jì),到今年第四季度,“小聰”將真正實(shí)現(xiàn)規(guī)模應(yīng)用。

在落地方面,“小聰”也將從實(shí)時(shí)場景和非實(shí)時(shí)場景兩個(gè)方向落地。

在實(shí)時(shí)新聞信息、公共廣播信息等實(shí)時(shí)場景方面,搜狗將考慮人機(jī)交互與多模態(tài)動(dòng)作的結(jié)合,把手語放到人機(jī)交互的環(huán)境中,方便聽障人士自主地與機(jī)器進(jìn)行交流。

在偏文化娛樂和生活相關(guān)等非實(shí)時(shí)場景中,搜狗也將和更多電視媒體,以及對(duì)內(nèi)容播報(bào)有強(qiáng)需求的團(tuán)隊(duì)合作,通過“小聰”將視頻和文字內(nèi)容視頻化,讓更多節(jié)目都能通過手語的方式進(jìn)行信息傳遞,幫助聽障人群更好地融入社會(huì)生活,同時(shí)也減輕傳統(tǒng)手語老師的工作壓力。

“我們希望通過聚焦數(shù)字人技術(shù),讓它為社會(huì)創(chuàng)造更大的價(jià)值?!标悅フ劦?,這不僅是嘴形的播報(bào),而是充分把數(shù)字人的靈活性、真實(shí)性、自然連貫的性能全部發(fā)揮出來,做出高品質(zhì)且符合國家標(biāo)準(zhǔn)的手語表達(dá)技術(shù),真正提高手語的普及力度和應(yīng)用范圍。

結(jié)語:搜狗AI合成主播打開行業(yè)創(chuàng)新突破口

作為我國AI合成主播的行業(yè)風(fēng)向標(biāo),搜狗一直不斷精進(jìn)數(shù)字人技術(shù),在增加機(jī)器的溫度,拉近人機(jī)之間關(guān)系的同時(shí),也幫助傳統(tǒng)內(nèi)容行業(yè)提高生產(chǎn)力和創(chuàng)新力。

這次搜狗將分身技術(shù)聚焦在更少數(shù)的聽障人群,去挑戰(zhàn)一個(gè)又一個(gè)新的技術(shù)難關(guān),不僅讓我們看到了搜狗攀爬技術(shù)壁壘的魄力,也看到了搜狗作為一家企業(yè)的社會(huì)責(zé)任感和擔(dān)當(dāng),也是一次與弱勢群體的共情。

也許對(duì)更大規(guī)模的健聽人群來說,“小聰”的誕生對(duì)自己的生活并沒有帶來任何改變。但對(duì)我國那2700萬聽障人士而言,這也是他們能拉近與社會(huì)的距離,更輕松、更溫暖地感受當(dāng)下生活,甚至輕松走出國門的重要技術(shù)突破。