虛擬數(shù)字人,是存在于數(shù)字世界的“人”,通過動作捕捉、三維建模、語音合成等技術(shù)高度還原真實人類,再借助AR/MR/VR等終端呈現(xiàn)出來的立體“人”。在人工智能、虛擬現(xiàn)實等新技術(shù)浪潮的帶動下,虛擬數(shù)字人制作過程得到有效簡化、各方面性能獲得飛躍式提升,開始從外觀的數(shù)字化逐漸深入到行為的交互化、思想的智能化。以虛擬主播、虛擬員工等為代表的數(shù)字人成功進入大眾視野,并以多元的姿態(tài)在影視、游戲、傳媒、文旅、金融等眾多領(lǐng)域大放異彩。

12月3日,首屆數(shù)字人開發(fā)者大會在北京召開。首屆數(shù)字人行業(yè)盛會由國家互聯(lián)網(wǎng)信息辦公室信息化發(fā)展局和中關(guān)村科技園區(qū)管理委員會作為指導單位,中國信息通信院、浦發(fā)銀行以及中關(guān)村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟主辦,凌云光技術(shù)協(xié)辦。會上,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(簡稱“AIIA 聯(lián)盟”)和中關(guān)村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟(簡稱“ZAI 聯(lián)盟”)數(shù)字人工作委員會首次發(fā)布了《2020 年虛擬數(shù)字人發(fā)展白皮書》,白皮書回顧了虛擬數(shù)字人發(fā)展歷程,重點分析了虛擬數(shù)字人關(guān)鍵技術(shù)和產(chǎn)業(yè)發(fā)展現(xiàn)狀,對虛擬數(shù)字人的未來發(fā)展趨勢進行了展望,剖析了數(shù)字人發(fā)展中的制約因素。

本期內(nèi)參來源:中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟? 中關(guān)村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟

原標題:

《2020 年虛擬數(shù)字人發(fā)展白皮書》

作者:顏媚 等

一、什么是虛擬數(shù)字人

1、虛擬數(shù)字人研究范疇

“虛擬數(shù)字人”一詞最早源于 1989 年美國國立醫(yī)學圖書館發(fā)起的“可視人計劃”(Visible Human Project, YHP)。2001年, 國內(nèi)以“中國數(shù)字化虛擬人體的科技問題”為主題的香山科學會議第 174 次學術(shù)討論會提出了“數(shù)字化虛擬人體”的概念。

這些“虛擬數(shù)字人”主要是指人體結(jié)構(gòu)的可視化,以三維形式顯示人體解剖結(jié)構(gòu)的大小、形狀、位置及器官間的相互空間關(guān)系,即利用人體信息,實現(xiàn)人體解剖結(jié)構(gòu)的數(shù)字化。主要應(yīng)用于醫(yī)療領(lǐng)域的人體解剖教學、臨床診療等。

與上述醫(yī)療領(lǐng)域的數(shù)字化人體不同,本篇中所分析的虛擬數(shù)字人(以下簡稱“數(shù)字人”)是指具有數(shù)字化外形的虛擬人物。與具備實體的機器人不同,虛擬數(shù)字人依賴顯示設(shè)備存在。虛擬數(shù)字人宜具備以下三方面特征:

一是擁有人的外觀,具有特定的相貌、性別和性格等人物特征;

二是擁有人的行為,具有用語言、面部表情和肢體動作表達的能力;

三是擁有人的思想,具有識別外界環(huán)境、并能與人交流互動的能力。

2、虛擬數(shù)字人發(fā)展歷程

虛擬數(shù)字人的發(fā)展與其制作技術(shù)的進步密不可分,從最早的手工繪制到現(xiàn)在的 CG(Computer Graphics,電腦繪圖)、人工智能合成,虛擬數(shù)字人大致經(jīng)歷了萌芽、探索、初級和成長四個階段,詳見下圖。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲虛擬數(shù)字人發(fā)展歷程

20 世紀 80 年代,人們開始嘗試將虛擬人物引入到現(xiàn)實世界中,虛擬數(shù)字人步入萌芽階段。該時期虛擬數(shù)字人的制作技術(shù)以手工繪制為主,應(yīng)用極為有限。1982 年,日本動畫《超時空要塞》播出后,制作方將女主角林明美包裝成演唱動畫插曲的歌手,并制作了音樂專輯,該專輯成功打入當時日本知名的音樂排行榜 Oricon,林明美也成為了世界上第一位虛擬歌姬。

1984 年,英國人 George Stone 創(chuàng)作出一個名為Max Headroom 的虛擬人物,MAX 擁有人類的樣貌和表情動作,身穿西裝,佩戴墨鏡,曾參演了一部電影,拍攝了數(shù)支廣告,一度成為英國家喻戶曉的虛擬演員。由于技術(shù)的限制,其虛擬形象是由真人演員通過特效化妝和手繪實現(xiàn)。

21 世紀初,傳統(tǒng)手繪逐漸被 CG、動作捕捉等技術(shù)取代,虛擬數(shù)字人步入探索階段。該階段的虛擬數(shù)字人開始達到實用水平,但造價不菲,主要出現(xiàn)在影視娛樂行業(yè),如數(shù)字替身、虛擬偶像等。電影制作中的數(shù)字替身一般利用動作捕捉技術(shù),真人演員穿著動作捕捉服裝,臉上點上表情捕捉點,通過攝像機、動作捕捉設(shè)備將真人演員的動作、表情采集處理,經(jīng)計算機處理后賦予給虛擬角色。

2001 年,《指環(huán)王》中的角色咕嚕就是由 CG 技術(shù)和動作捕捉技術(shù)產(chǎn)生,這些技術(shù)后續(xù)還在《加勒比海盜》、《猩球崛起》等電影制作中使用。2007 年,日本制作了第一個被廣泛認可的虛擬數(shù)字人“初音未來”,初音未來是二次元風格的少女偶像,早期的人物形象 主 要 利 用 CG 技 術(shù)合成 , 人物聲音采用雅馬哈的VOCALOID系列語音合成,呈現(xiàn)形式還相對粗糙。

近五年,得益于深度學習算法的突破,數(shù)字人的制作過程得到有效簡化,虛擬數(shù)字人開始步入正軌,進入初級階段。該時期人工智能成為虛擬數(shù)字人不可分割的工具,智能驅(qū)動的數(shù)字人開始嶄露頭角。

2018 年,新華社與搜狗聯(lián)合發(fā)布的“AI合成主播”,可在用戶輸入新聞文本后,在屏幕展現(xiàn)虛擬數(shù)字人形象并進行新聞播報,且唇形動作能與播報聲音實時同步。

2019 年,浦發(fā)銀行和百度共同發(fā)布的數(shù)字員工“小浦”,也是利用自然語言處理、語音識別、計算機視覺等人工智能技術(shù)制作的虛擬數(shù)字人,可通過移動設(shè)備為用戶提供“面對面”的銀行業(yè)務(wù)服務(wù)。

當前,虛擬數(shù)字人正朝著智能化、便捷化、精細化、多樣化發(fā)展,步入成長期。2019 年,美國影視特效公司數(shù)字王國軟件研發(fā)部負責人 Doug Roble 在 TED 演講時展示了自己的虛擬數(shù)字人“DigiDoug”,可在照片寫實級逼真程度的前提下,進行實時的表情動作捕捉及展現(xiàn)。今年,三星旗下的STAR Labs在CES國際消費電子展上展出了其虛擬數(shù)字人項目 NEON,NEON 是一種由人工智能所驅(qū)動的虛擬人物,擁有近似真人的形象及逼真的表情動作,具備表達情感和溝通交流的能力。

3、當前虛擬數(shù)字人通用系統(tǒng)框架及運作流程

當前虛擬數(shù)字人作為新一代人機交互平臺,仍處于發(fā)展期,還未有統(tǒng)一的通用系統(tǒng)框架。這份白皮書根據(jù)虛擬數(shù)字人的制作技術(shù)以及目前市場上提供的數(shù)字人服務(wù)和產(chǎn)品結(jié)構(gòu),總結(jié)出虛擬數(shù)字人通用系統(tǒng)框架,如下圖所示。虛擬數(shù)字人系統(tǒng)一般情況下由人物形象、語音生成、動畫生成、音視頻合成顯示、交互等 5 個模塊構(gòu)成。

人物形象根據(jù)人物圖形資源的維度,可分為 2D 和 3D 兩大類,從外形上又可分為卡通、擬人、寫實、超寫實等風格; 語音生成模塊和 動畫生成模塊可分別基于文本生成對應(yīng)的人物語音以及與之相匹配的人物動畫; 音視頻合成顯示模塊將語音和動畫合成視頻,再顯示給用戶。 交互模塊使數(shù)字人具備交互功能,即通過語音語義識別等智能技術(shù)識別用戶的意圖,并根據(jù)用戶當前意圖決定數(shù)字人后續(xù)的語音和動作,驅(qū)動人物開啟下一輪交互。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲虛擬數(shù)字人通用系統(tǒng)框架

交互模塊為擴展項,根據(jù)其有無,可將數(shù)字人分為交互型數(shù)字人和非交互型數(shù)字人。非交互型數(shù)字人體統(tǒng)的運作流程如下圖非交互類虛擬數(shù)字人系統(tǒng)運作流程所示。系統(tǒng)依據(jù)目標文本生成對應(yīng)的人物語音及動畫,并合成音視頻呈現(xiàn)給用戶。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲非交互類虛擬數(shù)字人系統(tǒng)運作流程

交互型數(shù)字人根據(jù)驅(qū)動方式的不同可分為智能驅(qū)動型和真人驅(qū)動型。 智能驅(qū)動型數(shù)字人可通過智能系統(tǒng)自動讀取并解析識別外界輸入信息,根據(jù)解析結(jié)果決策數(shù)字人后續(xù)的輸出文本,然后驅(qū)動人物模型生成相應(yīng)的語音與動作來使數(shù)字人跟用戶互動。

該人物模型是預(yù)先通過AI技術(shù)訓練得到的,可通過文本驅(qū)動生成語音和對應(yīng)動畫,業(yè)內(nèi)將此模型稱為TTSA(Text To Speech & Animation)人物模型。 真人驅(qū)動型數(shù)字人則是通過真人來驅(qū)動數(shù)字人,主要原理是真人根據(jù)視頻監(jiān)控系統(tǒng)傳來的用戶視頻,與用戶實時語音,同時通過動作捕捉采集系統(tǒng)將真人的表情、動作呈現(xiàn)在虛擬數(shù)字人形象上,從而與用戶進行交互。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲智能驅(qū)動型虛擬數(shù)字人運作流程

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲真人驅(qū)動型虛擬數(shù)字人運作流程

二、虛擬數(shù)字人關(guān)鍵技術(shù)趨勢

1、虛擬數(shù)字人技術(shù)架構(gòu)

當前,虛擬數(shù)字人的制作涉及眾多技術(shù)領(lǐng)域,且制作方式尚未完全定型,通過對現(xiàn)有虛擬數(shù)字人制作中涉及的常用技術(shù)進行調(diào)研,本白皮書在虛擬數(shù)字人通用系統(tǒng)框架的基礎(chǔ)上提煉出五橫兩縱的技術(shù)架構(gòu),如下圖所示。

“五橫”是指用于數(shù)字人制作、交互的五大技術(shù)模塊,即人物生成、人物表達、合成顯示、識別感知、分析決策等模塊。 其中,人物表達包括語音生成和動畫生成。動畫生成則包含驅(qū)動(動作生成)和渲染兩大部分?!皟煽v”是指 2D、3D 數(shù)字人,3D 數(shù)字人需要額外使用三維建模技術(shù)生成數(shù)字形象,信息維度增加,所需的計算量更大。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲虛擬數(shù)字人技術(shù)架構(gòu)

這份白皮書重點關(guān)注虛擬數(shù)字人制作過程涉及的建模、驅(qū)動、渲染三大關(guān)鍵技術(shù)。

2、建模 : 靜態(tài)掃描建模仍為主流

相機陣列掃描重建替代結(jié)構(gòu)光掃描重建成為人物建模主流方式。早期的靜態(tài)建模技術(shù)以結(jié)構(gòu)光掃描重建為主。結(jié)構(gòu)光掃描重建可以實現(xiàn) 0.1 毫米級的掃描重建精度,但其掃描時間長,一般在 1 秒以上,甚至達到分鐘級,對于人體這類運動目標在友好度和適應(yīng)性方面都差強人意,因此被更多的應(yīng)用于工業(yè)生產(chǎn)、檢測領(lǐng)域。

近年來,拍照式相機陣列掃描重建得到飛速發(fā)展,目前可實現(xiàn)毫秒級高速拍照掃描(高性能的相機陣列精度可達到亞毫米級),滿足數(shù)字人掃描重建需求,成為當前人物建模主流方式。國際上 IR、Ten24 等公司已經(jīng)將靜態(tài)重建技術(shù)完全商業(yè)化,服務(wù)于好萊塢大型影視數(shù)字人制作,國內(nèi)凌云光等公司制作的拍照式人體掃描系統(tǒng)也已經(jīng)在電影、游戲、虛擬主播項目中成功應(yīng)用。

相比靜態(tài)重建技術(shù),動態(tài)光場重建不僅可以重建人物的幾何模型,還可一次性獲取動態(tài)的人物模型數(shù)據(jù),并高品質(zhì)重現(xiàn)不同視角下觀看人體的光影效果,成為數(shù)字人建模重點發(fā)展方向。動態(tài)光場重建是目前世界上最新的深度掃描技術(shù),此技術(shù)可忽略材質(zhì),直接采集三維世界的光線,然后實時渲染出真實的動態(tài)表演者模型,它主要包含人體動態(tài)三維重建和光場成像兩部分。

人體動態(tài)三維重建一直是計算機視覺、計算機圖形學等領(lǐng)域研究的重點,主要采用攝像機陣列采集動態(tài)數(shù)據(jù),可重建高低頻幾何、紋理、材質(zhì)、三維運動信息。光場成像是計算攝像學領(lǐng)域一項新興技術(shù),它不同于現(xiàn)有僅展示物體表面光照情況的 2D 光線地圖,光場可以存儲空間中所有光線的方向和角度,從而產(chǎn)出場景中所有表面的反射和陰影,這為人體三維重建提供了更加豐富的圖像信息。

近年來 Mirosoft、Google、Intel、Facebook 等公司都在積極展開相關(guān)研究,其中 Microsoft 的 108 攝像機 MRstudio已經(jīng)在全球各大洲均有建設(shè);Google 的 Relightable 系統(tǒng)將結(jié)構(gòu)光、動態(tài)建模、重光照技術(shù)集成到一起,在一套系統(tǒng)中包含模型重建、動作重建、光照重建的全部功能;國內(nèi)清華大學、商湯科技、華為等也展開了相關(guān)研究,并取得國際水平的同步進展。

3、驅(qū)動 : 智能合成 、 動作捕捉遷移

2D、3D 數(shù)字人均已實現(xiàn)嘴型動作的智能合成,其他身體部位的動作目前還只支持錄播。2D、3D 數(shù)字人嘴型動作智能合成的底層邏輯是類似的,都是建立輸入文本到輸出音頻與輸出視覺信息的關(guān)聯(lián)映射,主要是對已采集到的文本到語音和嘴型視頻(2D)/嘴型動畫(3D)的數(shù)據(jù)進行模型訓練,得到一個輸入任意文本都可以驅(qū)動嘴型的模型,再通過模型智能合成。

然而,2D 視頻和 3D 嘴型動畫底層的數(shù)學表達不一樣,2D 視頻是像素表達;3D 嘴型動畫是 3D 模型對應(yīng)的 BlendShape 的向量表達。除了嘴型之外的動作,包含眨眼、微點頭、挑眉等動畫目前都是通過采用一種隨機策略或某個腳本策略將預(yù)錄好的視頻/3D 動作進行循環(huán)播放來實現(xiàn)。例如 3D 肢體動作目前就是通過在某個位置觸發(fā)這個預(yù)錄好的肢體動作數(shù)據(jù)得到。

觸發(fā)策略是通過人手動配置得到的,未來希望通過智能分析文本,學習人類的表達,實現(xiàn)自動配置。截至目前,國內(nèi)外科技企業(yè)在數(shù)字人動作智能合成方面都有一定進展,國際上如 Reallusion 公司研究的利用語音生成面部表情的 Craytalk 技術(shù)已在動畫制作中被成功商用,國內(nèi)搜狗、相芯科技等公司也有部分項目落地應(yīng)用。

通過將捕捉采集的動作遷移至數(shù)字人是目前3D數(shù)字人動作生成的主要方式,核心技術(shù)是動作捕捉。動作捕捉技術(shù)按照實現(xiàn)方式的不同,可分為光學式、慣性式、電磁式及基于計算機視覺的動作捕捉等?,F(xiàn)階段,光學式和慣性式動作捕捉占據(jù)主導地位,基于計算機視覺的動作捕捉成為聚焦熱點。 光學動作捕捉通過對目標上特定光點的監(jiān)視和跟蹤來完成運動捕捉的任務(wù)。

最常用的是基于 Marker(馬克點)的光學動作捕捉,即在演員身上粘貼能夠反射紅外光的馬克點,通過攝像頭對反光馬克點的追蹤,來對演員的動作進行捕捉。這種方式對動作的捕捉精度高,但對環(huán)境要求也高,并且造價高昂。光學式解決方案比較出名的企業(yè)有英國的Vicon,美國的 OptiTrack 和魔神(MotionAnalysis),國內(nèi)的 Nokov、uSens、青瞳視覺等。

慣性動作捕捉主要是基于慣性測量單元(Inertial Measurement Unit,IMU)來完成對人體動作的捕捉,即把集成了加速度計、陀螺儀和磁力計的IMU 綁在人體的特定骨骼節(jié)點上,通過算法對測量數(shù)值進行計算,從而完成動作捕捉。這種慣性動作捕捉方案價格相對低廉,但精度較低,會隨著連續(xù)使用時間的增加產(chǎn)生累積誤差,發(fā)生位置漂移。

慣性式動捕方案的代表性企業(yè)有荷蘭的 Xsens,以及國內(nèi)的諾亦騰(Noitom)、幻境、國承萬通等。 基于計算機視覺的動作捕捉主要是通過采集及計算深度信息來完成對動作的捕捉,是近些年才興起的技術(shù)。這種視覺動捕方式因其簡單、易用、低價,已成為目前使用的頻率較高的動作捕捉方案,代表性產(chǎn)品有 Leap Motion、微軟Kinect 等。以上動捕方案的性能對比如下圖所示。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲主流動作捕捉方案性能對比

4、 渲染:真實性和實時性均大幅提升

PBR(Physically Based Rendering,基于物理的渲染技術(shù))渲染技術(shù)的進步以及重光照等新型渲染技術(shù)的出現(xiàn)使數(shù)字人皮膚紋理變得真實,突破了恐怖谷效應(yīng)。恐怖谷效應(yīng)由日本機器人專家森政弘提出,認為人們對機器人的親和度隨著其仿真程度增加而增高,但當達到一個較高的臨界點時,親和度會突然跌入谷底,產(chǎn)生排斥、恐懼和困惑等負面心理。數(shù)字人恐怖谷效應(yīng)主要由數(shù)字人外表、表情動作上與真人的差異帶來,其中外表真實感的關(guān)鍵就是皮膚材質(zhì)的真實感,無論是塑料感還是蠟像感都會給人類帶來不適。在 PBR 技術(shù)出現(xiàn)之前,限于相關(guān)軟硬件的發(fā)展程度,所有的 3D 渲染引擎,更多的著重在于實現(xiàn) 3D 效果,在真實感體現(xiàn)方面差強人意。

PBR 是基于真實物理世界的成像規(guī)律模擬的一類渲染技術(shù)的集合,它的關(guān)鍵在于微表面模型和能量守恒計算,通過更真實的反映模型表面反射光線和折射光線的強弱,使得渲染效果突破了塑料感。目前常見的幾款 3D 引擎,如UnrealEngine 4, CryEngine 3, Unity 3D 5,均有了各自的 PBR實現(xiàn)。

重光照技術(shù)通過采集模擬多種光照條件的圖像數(shù)據(jù),測算數(shù)字人表面光照反射特性,并合成出數(shù)字人模型在新的光照下的渲染結(jié)果,使計算機中的虛擬數(shù)字人在任意虛擬環(huán)境下都可以呈現(xiàn)近乎真實的效果,它徹底改變了傳統(tǒng)渲染方式通過模擬皮膚復(fù)雜的透射反射來計算渲染總會帶來誤差的局面。

該技術(shù)在 2000 年初由南加州大學實驗室創(chuàng)建LightStage 平臺時提出,并開始了相關(guān)研究,目前已經(jīng)經(jīng)過 7代的迭代發(fā)展,已被成功應(yīng)用到《阿凡達》、《復(fù)仇者聯(lián)盟》等眾多經(jīng)典影片的角色制作中。國內(nèi)清華大學、浙江大學也都建設(shè)了重光照系統(tǒng),可以實現(xiàn)高精度人體光照采集與重建。

實時渲染技術(shù)的突破助力寫實類數(shù)字人實現(xiàn)實時交互,應(yīng)用范圍快速擴大。實時渲染指圖形數(shù)據(jù)的實時計算與輸出,其每一幀都是針對當時實際的環(huán)境光源、相機位置和材質(zhì)參數(shù)計算出來的圖像。與離線渲染相比,實時渲染面臨較大挑戰(zhàn)。一是渲染時長短,實時渲染每秒至少要渲染 30 幀,即在 33 毫秒內(nèi)完成一幀畫面渲染,離線渲染則可以花費數(shù)小時甚至更長時間渲染一幀畫面;二是計算資源有限,實時渲染受限于時效要求,計算資源一般是不能及時調(diào)整,而離線渲染受時效限制較低,可臨時調(diào)配更多的計算資源。

早期的實時渲染只能選擇高度抽象和簡化過的渲染算法,犧牲了畫面質(zhì)量。隨著硬件能力的提升和算法的突破,渲染速度、渲染效果的真實度、渲染畫面的分辨率均大幅提升,在虛擬人物實時渲染方面,已經(jīng)能做到以假亂真。

2016 年,EpicGames 聯(lián)合 3Lateral、Cubic Motion、Ninja Theory 等公司聯(lián)合開發(fā)的可實時驅(qū)動的虛擬人物在當年的 Siggraph(Special Interest Group for Computer GRAPHICS,計算機圖形圖像特別興趣小組,致力于推廣和發(fā)展計算機繪圖和動畫制作的軟硬件技術(shù))會議中做了演示,成功在消費級的硬件環(huán)境下實時渲染了高質(zhì)量的虛擬角色。

2018 年 5 月,騰訊發(fā)布虛擬人 Siren,也一個支持實時渲染的虛擬人物。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲離線渲染與實時渲染對比

三、虛擬數(shù)字人產(chǎn)業(yè)應(yīng)用現(xiàn)狀

1、虛擬數(shù)字人產(chǎn)業(yè)視圖

當前虛擬數(shù)字人理論和技術(shù)日益成熟,應(yīng)用范圍不斷擴大,產(chǎn)業(yè)正在逐步形成、不斷豐富 ,相應(yīng)的商業(yè)模式也在持續(xù)演進和多元化。虛擬數(shù)字人的產(chǎn)業(yè)鏈從上到下可以分為基礎(chǔ)層、平臺層和應(yīng)用層,如下圖所示。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲虛擬數(shù)字人產(chǎn)業(yè)視圖

基礎(chǔ)層?;A(chǔ)層為虛擬數(shù)字人提供基礎(chǔ)軟硬件支撐,硬件包括顯示設(shè)備、光學器件、傳感器、芯片等,基礎(chǔ)軟件包括建模軟件、渲染引擎。 顯示設(shè)備是數(shù)字人的載體,既包括手機、電視、投影、LED 顯示等 2D 顯示設(shè)備,也包括裸眼立體、AR、VR 等 3D 顯示設(shè)備。 光學器件用于視覺傳感器、用戶顯示器的制作。 傳感器用于數(shù)字人原始數(shù)據(jù)及用戶數(shù)據(jù)的采集。

芯片用于傳感器數(shù)據(jù)預(yù)處理和數(shù)字人模型渲染、AI 計算。 建模軟件能夠?qū)μ摂M數(shù)字人的人體、衣物進行三維建模。 渲染引擎能夠?qū)艄狻⒚l(fā)、衣物等進行渲染,主流引擎包括 Unity Technologies 公司的 Unity 3D、Epic Games公司的 Unreal Engine 等??傮w來看,處于基礎(chǔ)層的廠商已經(jīng)深耕行業(yè)多年,已經(jīng)形成了較為深厚的技術(shù)壁壘。

平臺層。平臺層包括軟硬件系統(tǒng)、生產(chǎn)技術(shù)服務(wù)平臺、AI 能力平臺,為虛擬數(shù)字人的制作及開發(fā)提供技術(shù)能力。建模系統(tǒng)和動作捕捉系統(tǒng)通過產(chǎn)業(yè)鏈上游的傳感器、光學器件等硬件獲取真人/實物的各類信息,利用軟件算法實現(xiàn)對人物的建模、動作的重現(xiàn);渲染平臺用于模型的云端渲染。解決方案平臺基于自身技術(shù)能力為廣大客戶提供數(shù)字人解決方案。AI 能力平臺提供計算機視覺、智能語音、自然語言處理技術(shù)能力。平臺層匯聚的企業(yè)較多,騰訊、百度、搜狗、魔琺科技、相芯科技均有提供相應(yīng)數(shù)字人技術(shù)服務(wù)平臺。

應(yīng)用層。應(yīng)用層是指虛擬數(shù)字人技術(shù)結(jié)合實際應(yīng)用場景領(lǐng)域,切入各類,形成行業(yè)應(yīng)用解決方案,賦能行業(yè)領(lǐng)域。按照應(yīng)用場景或行業(yè)的不同,已經(jīng)出現(xiàn)了娛樂型數(shù)字人(如虛擬主播、虛擬偶像)、教育型數(shù)字人(如虛擬教師)、助手型數(shù)字人(如虛擬客服、虛擬導游、智能助手)、影視數(shù)字人(如替身演員或虛擬演員)等。不同外形、不同功能的虛擬數(shù)字人賦能影視、傳媒、游戲、金融、文旅等領(lǐng)域,根據(jù)需求為用戶提供定制化服務(wù)。

2、虛擬數(shù)字人重點領(lǐng)域應(yīng)用環(huán)境及典型應(yīng)用案例分析

虛擬數(shù)字人應(yīng)用給傳統(tǒng)領(lǐng)域帶來變革。通過虛擬數(shù)字人產(chǎn)品與生產(chǎn)生活相融合,其規(guī)?;?、可定制化、可復(fù)制化的能力能夠推動改善傳統(tǒng)環(huán)節(jié)流程、提升效能、降低成本等,大幅提升業(yè)務(wù)體驗,給傳統(tǒng)領(lǐng)域帶來變革。典型的應(yīng)用領(lǐng)域、場景及充當?shù)慕巧缦聢D所示。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲虛擬數(shù)字人應(yīng)用領(lǐng)域、場景及角色

虛擬數(shù)字人+影視。特效電影廣受市場認可,扶持政策的密集出臺,以數(shù)字替身為代表的虛擬數(shù)字人+影視類的產(chǎn)品應(yīng)用正在展現(xiàn)廣闊的市場前景。影視是對視覺效果的要求最高且最大程度影響社會對數(shù)字人形象認知、品牌的一個領(lǐng)域。近年來中國影視數(shù)字人特效取得快速發(fā)展,部分特效大片獲得市場認可。2019 年中國影視票房收入超過 640 億級別,連續(xù)多年增長8%左右,其中特效電影約占 10%。國家對于影視特效的發(fā)展十分重視,先后出臺了一系列相關(guān)扶持政策。

2019 年,科技部、文化部聯(lián)合六部委發(fā)布《關(guān)于促進文化和科技深度融合的指導意見》,提出加強激光放映、虛擬現(xiàn)實、光學捕捉、影視攝錄、高清制播、圖像編輯等高端文化裝備自主研發(fā)及產(chǎn)業(yè)化。2020 年,國家電影局《關(guān)于促進科幻電影發(fā)展的若干意見》,提出以科幻電影特效技術(shù)發(fā)展引領(lǐng)帶動電影特效水平整體提升,并要落實財稅支持政策,同時對入駐影視文化基地的科技企業(yè)進行租金減免。

于 2019 年 2 月 22 日在中國內(nèi)地上映的《阿麗塔:戰(zhàn)斗天使》是虛擬數(shù)字人技術(shù)與影視相結(jié)合的典型應(yīng)用案例之一。劇中的女主角阿麗塔是一位完全采用數(shù)字人技術(shù)制作的角色。該電影通過采用特殊的面部捕捉儀器對真人演員人臉細節(jié)進行精準捕捉,然后將其作為電腦中虛擬角色的運動依據(jù),使虛擬角色的動作和表情能像真人一樣自然逼真。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲2013-2019 中國電影票房收入增長趨勢

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲中國內(nèi)地電影票房總收入 TOP10

虛擬數(shù)字人+傳媒。以虛擬主播為代表傳媒行業(yè)應(yīng)用很好的滿足了媒體傳播領(lǐng)域?qū)?nèi)容生成方面的業(yè)務(wù)需求,成為了融媒體時代的傳媒利器。據(jù)前瞻產(chǎn)業(yè)研究院統(tǒng)計,2019 年中國視頻直播行業(yè)收入達到 1082 億人民幣,全國有 3.9 億人在關(guān)注虛擬偶像,其中最大的二次元活動社區(qū)B站月活用戶達 1140 萬,虛擬主播占直播營收 40%。

同期,B站、虎牙等大型直播平臺也都開啟了線上、線下虛擬主播活動。如Bilibili Macro Link系列活動VR直播觀看如數(shù)達到 660 萬,10 萬級的“up主”(指在視頻網(wǎng)站、論壇、FTP站點上傳視頻音頻文件的人)就可以達到 100 萬級真人主播的應(yīng)收。此外,在傳統(tǒng)媒體領(lǐng)域,以虛擬主持人為代表的數(shù)字人應(yīng)用也開始進入公眾視野。在2019 年央視網(wǎng)絡(luò)春晚舞臺上,以撒貝寧為原型制作的AI虛擬主持人“小小撒”首次上崗與原型同臺秀技。這也是國內(nèi)第一次人類主持人和自己的虛擬孿生數(shù)字人共同主持大規(guī)模的國家級文化活動,引起了業(yè)界及網(wǎng)民的強烈關(guān)注。

虛擬數(shù)字人+游戲。游戲市場日趨激烈,對于精品的需求日益增長,或是虛擬數(shù)字人技術(shù)在該領(lǐng)域落地的福音。2019 年游戲市場規(guī)模達到 2300 億,其中與數(shù)字人相關(guān)度較大的RPG類游戲約占 30%的份額。我國國內(nèi)游戲監(jiān)管環(huán)境和游戲版號審批政策仍舊趨嚴,游戲用戶數(shù)相比 2018 年僅增加 0.1 億,市場競爭日趨激烈,對于精品的需求越來越高。

虛擬數(shù)字人技術(shù)則能夠有效簡化和加快游戲動畫制作過程,可以在有限成本的情況下讓游戲中更多的虛擬角色都具備豐富的肢體動作和精細的面部表情,給玩家?guī)砀两挠螒蝮w驗。例如網(wǎng)易伏羲實驗室成功將虛擬數(shù)字人技術(shù)應(yīng)用到《逆水寒》等多個游戲劇情動畫場景制作中,在無手工參與下,快速生成動畫,這使得大量的虛擬角色都能富有視覺的表達能力。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲2015-2019 中國游戲市場實際銷售收入

虛擬數(shù)字人+金融。虛擬數(shù)字人能夠有效助力金融機構(gòu)實現(xiàn)“降本增效”,各大金融巨頭爭相布局“數(shù)字員工”。運用金融科技實現(xiàn)“降本增效”應(yīng)對市場競爭成為金融行業(yè)發(fā)展共識,以科技為核心的競爭導向,帶來了金融機構(gòu)信息科技投入的逐年增加。據(jù)輕金融統(tǒng)計,2019 年,16 家全國性銀行科技總投入超千億,總計1034.1億元。其中工農(nóng)中建四大行投入均超過100億元,建行投入最高,達到 176.33 億元。

虛擬數(shù)字人擁有擬人的表情動作,可進行智能對話,能夠與服務(wù)類場景較多的金融行業(yè)天然結(jié)合。多家金融機構(gòu)正利用虛擬數(shù)字人技術(shù)打造“數(shù)字員工”,成為了科技創(chuàng)新、降本增效的重要方向。以中國工商銀行為例,其推出的數(shù)字人銀行員工,在移動終端和大屏等媒介上展現(xiàn)數(shù)字擬態(tài)形象,能夠在產(chǎn)品營銷講解、金融業(yè)務(wù)辦理、資訊播報、咨詢問答等多個業(yè)務(wù)場景,實現(xiàn)與用戶的可視化交互,為用戶帶來個性化服務(wù),有效解除用戶顧慮,提升用戶體驗和駐留時間,真正讓數(shù)字化服務(wù)“聽得見”的同時也“看得見”。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲部分國際領(lǐng)先金融機構(gòu)信息技術(shù)投入金額與增速

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲全國性科技總投入與占營收比重

虛擬數(shù)字人+文旅。數(shù)字文旅產(chǎn)業(yè)表現(xiàn)突出,以虛擬講解員為代表的虛擬數(shù)字人應(yīng)用或為其貢獻蓬勃力量。據(jù)中國旅游研究院統(tǒng)計,2019 年前三季度,文旅營業(yè)收入 62187 億元,比上年同期增長 7.6%,特別是數(shù)字文旅產(chǎn)業(yè)表現(xiàn)突出,成為文旅產(chǎn)業(yè)轉(zhuǎn)型升級的重要引擎。數(shù)字文化內(nèi)容與互聯(lián)網(wǎng)旅游、智慧旅游、虛擬旅游等新模式聯(lián)動發(fā)展,特別是疫情期間得到不斷增長。

目前,虛擬數(shù)字人在文旅領(lǐng)域暫時還沒有落地產(chǎn)品,但相關(guān)概念產(chǎn)品已經(jīng)開始映入公眾眼簾。例如商湯科技在 2020世界人工智能大會(WAIC)上展示的AI數(shù)字人“小糖”?!靶√恰笨梢劳杏谡古_前的滑動屏幕,為觀眾介紹和講述預(yù)先設(shè)定好的講解內(nèi)容。虛擬數(shù)字人帶來的全新展示方式和講解模式,在幫助文旅場館解決人力不足問題的同時,更憑借其智能化、電子化和展示效果多樣化的特性,為文旅行業(yè)的未來帶來更多可能性。

數(shù)字人正走進現(xiàn)實!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲2012-2019 全國國內(nèi)旅游人數(shù)

四、虛擬數(shù)字人發(fā)展趨勢和制約因素

1、虛擬數(shù)字人未來發(fā)展趨勢

虛擬數(shù)字人的采集、制作流程逐步簡單化、一體化,迭代式提升真實感。未來數(shù)字人的制作技術(shù)將會變得更加簡單,會有更加一體化、自動化的設(shè)備同步獲取模型、身體、表情、手指運動、聲音等所有數(shù)據(jù),無需穿戴專業(yè)傳感設(shè)備。在特定的環(huán)境下人們甚至無法分辨數(shù)字人的真假,可以更加自然與數(shù)字人交流互動。

虛擬數(shù)字人的交互方式衍變,智能化程度不斷加深。全雙工技術(shù)將推進數(shù)字人的交互方式衍變,讓數(shù)字人擁有一次喚醒、多次交互的能力,具備實時智能響應(yīng)、智能打斷、智能糾錯、多輪對話等功能。另外,隨著計算機視覺、語音和自然語言處理等人工智能技術(shù)的不斷進步,虛擬數(shù)字人將逐漸具備“看”、“聽”、“說”、“懂”的能力。

虛擬數(shù)字人逐漸實現(xiàn)在多場景、多領(lǐng)域的融合、應(yīng)用、落地。盡管目前數(shù)字人的發(fā)展環(huán)境、整體情況還處于尚未成熟的起步階段,但隨著虛擬數(shù)字人技術(shù)的精進、市場價值的釋放,其將更全面、更深入地融入影視、金融、文旅等各個領(lǐng)域,充分發(fā)揮應(yīng)用價值,迸發(fā)巨大的潛力。

2、虛擬數(shù)字人發(fā)展制約因素

目前,制約虛擬數(shù)字人產(chǎn)業(yè)發(fā)展的因素主要有以下幾個方面。

政策環(huán)境層面,行業(yè)依然處于培育期,缺乏政策與資本扶持。一是缺少上下游協(xié)作交流平臺,制約整體產(chǎn)業(yè)化發(fā)展。虛擬數(shù)字人產(chǎn)業(yè)鏈長,參與主體多,既有大型平臺企業(yè)、也有中小單位和初創(chuàng)公司,行業(yè)溝通成本高。二是行業(yè)投資回報周期較長,為數(shù)字人產(chǎn)業(yè)投資豎立了“無形壁壘”。數(shù)字人產(chǎn)業(yè)還不完全成熟,投資回報周期較傳統(tǒng)技術(shù)應(yīng)用更長,缺乏長期耐心資本來扶持企業(yè)成長。由于缺乏資本力量的推動,各產(chǎn)業(yè)規(guī)模擴張與資源整合的進程相對滯后。

技術(shù)應(yīng)用層面,制作方式自動化程度低、生產(chǎn)門檻高,關(guān)鍵技術(shù)還不夠完全成熟。目前 3D 數(shù)字人建模依然需要大量的人工制作參與,整體制作效率相對較低,與部分應(yīng)用場景快速、批量制作的需求并不匹配。此外,在虛擬數(shù)字人的關(guān)鍵技術(shù)方面,還存在實時面部表情捕捉與還原精準度不足、語音識別在強噪聲干擾及遠場識別等方面還很難達到實用化要求等瓶頸,需要加大研究力度以提高算法精度。

人才培養(yǎng)層面,技術(shù)人才、綜合人才極度缺乏,人才供應(yīng)體系不完善。數(shù)字人的技術(shù)跨度大,從制作端的美術(shù)師、模型師、綁定師、材質(zhì)師、動作捕捉師、燈光師、特效師、攝像師、導演、特效演員,到技術(shù)端的光學工程師、硬件工程師、軟件工程師、算法工程師、系統(tǒng)工程師,以及運營端的產(chǎn)品經(jīng)理、經(jīng)紀人等每一個環(huán)節(jié)的人才都很重要,急需一套完善的人才供應(yīng)體系,特別是跨界人才體系,才能保障產(chǎn)業(yè)的良性運轉(zhuǎn)。

標準體系層面,行業(yè)內(nèi)缺乏統(tǒng)一技術(shù)標準和體系,產(chǎn)品質(zhì)量良莠不齊。數(shù)字人的產(chǎn)業(yè)處于發(fā)展初期,制作型公司、技術(shù)型公司、運營型公司、應(yīng)用型公司均已入場,但各企業(yè)的技術(shù)、產(chǎn)品質(zhì)量差異較大。通過建立虛擬數(shù)字人的技術(shù)、產(chǎn)品標準體系,保護優(yōu)質(zhì)數(shù)字人廠商,促進行業(yè)健康發(fā)展。

安全倫理層面,相關(guān)法律法規(guī)和倫理規(guī)范尚待完善,存在潛在風險。虛擬數(shù)字人技術(shù)在發(fā)展中會引發(fā)一些法律問題和倫理風險,需要提前建立相關(guān)制度進行防范。虛擬世界里面的虛擬人物所有權(quán)、犯罪行為尚沒有法律上的界定。虛擬數(shù)字人帶來的沉浸式體驗可能會對用戶的精神、心理狀態(tài)帶來影響,改變用戶在脫離虛擬世界后的行為,比如可能會增加暴力傾向,存在一定倫理風險。

智東西認為,現(xiàn)在,在AI+5G的加持下,“虛擬數(shù)字人”的蓬勃發(fā)展才剛剛開始,而這只是第三產(chǎn)業(yè)智能化趨勢的一個縮影,隨著我國產(chǎn)業(yè)轉(zhuǎn)型升級的腳步逐漸加速,將會有各種形態(tài)的虛擬數(shù)字人出現(xiàn)在各行各業(yè)。