智東西(公眾號:zhidxcom)
作者 |?徐珊
編輯 | 云鵬

智東西4月25日報道,今天騰訊云智能推出了騰訊云智能小樣本數(shù)智人生產(chǎn)平臺,從而實現(xiàn)“自助式”數(shù)智人生產(chǎn)制作。

通過騰訊云智能小樣本數(shù)智人生產(chǎn)平臺,用戶只需要3分鐘真人口播視頻、100句語音素材,就可以在24小時內制作出與真人近似的“數(shù)智人”。

做一個數(shù)智人,現(xiàn)在你只需要3分鐘視頻和100句短語

目前,騰訊云智能主要將行業(yè)提供數(shù)智人底層aPaaS能力, 并且提供專屬的技術支持和商機流量扶持,而合作伙伴主要負責為云智能數(shù)智人服務打造上層應用,形成數(shù)智人SaaS方案。

從現(xiàn)場我們了解到,目前騰訊云智能、騰訊優(yōu)圖實驗室、騰訊AI Lab、Next Studios等多個業(yè)務團隊都為該數(shù)智人工廠提供技術支持。

做一個數(shù)智人,現(xiàn)在你只需要3分鐘視頻和100句短語

一、從數(shù)字人到數(shù)智人,騰訊數(shù)字人在口播等多領域應用

據(jù)騰訊云智能數(shù)智人產(chǎn)品總經(jīng)理陳磊透露,從2016年開始,騰訊就已經(jīng)開始接觸對話式AI,也就是早期的數(shù)字人。2018年,騰訊正式投入數(shù)智人研發(fā)和服務,成為國內最早投入數(shù)字人領域的企業(yè)之一,目前騰訊已發(fā)布數(shù)百篇相關技術頂會、期刊論文、專利近百份。

數(shù)智人的發(fā)展階段一共分為三個階段,離線階段、在線階段、在場階段。

做一個數(shù)智人,現(xiàn)在你只需要3分鐘視頻和100句短語

在場階段,數(shù)智人在生產(chǎn)效率和生產(chǎn)效能大幅提升。從三年前的百萬級價格,到如今的千元級,數(shù)智人的成本正在迅速下降,數(shù)智人也開始走向更廣泛商用市場,“普惠化”、“場景化”趨勢明顯。

騰訊云智能還提出自動化“AI+數(shù)智人工廠”,提供讓企業(yè)開箱即可以直接使用的數(shù)智人生產(chǎn)服務。該數(shù)智人工廠依托于騰訊云TI平臺,內置超過10項AI算法能力。

未來,無需任何算法、研發(fā)經(jīng)驗,企業(yè)只要在平臺導入視頻、語音訓練素材,即可通過“自助式”服務,完成大批量數(shù)智人形象、音色定制。

目前,已經(jīng)有數(shù)十家合作伙伴依托平臺,向行業(yè)提供數(shù)智人直播SaaS、知識口播SaaS應用,覆蓋醫(yī)療、傳媒、金融多個行業(yè)。

“騰訊和其他相比,更懂行業(yè)內的市場需求?!痹陉惱诳磥?,未來人們可以在騰訊云上傳自己的照片,然后選擇下一個虛擬數(shù)智人的訂單,在一天內就可以獲得自己的數(shù)智人。

二、以“小樣本”見“大模型”,揭開小樣本打造數(shù)字人背后的AI黑科技

騰訊優(yōu)圖實驗室研究總監(jiān)汪鋮杰認為目前數(shù)智人服務的問題主要聚焦在兩大方面:如何將數(shù)智人做的更高效,以及如何將數(shù)智人做得更逼真。

比如說,想要虛擬數(shù)智人更加逼真,要考慮如何將此前的產(chǎn)品變得更加標準化和流程化,離不開人像編輯生成、人像3D技術、生成輔助技術等多樣的AI技術幫助。

他覺得2D小樣本技術的背后是3D技術。“小樣本數(shù)智人從直觀上感受是2D視頻,背后其實是3D人像在做支撐。從‘文本/音頻’信息到‘3D人像驅動’再到‘2D人像視頻’的模式,通過3D人臉結構的先驗信息引入,使數(shù)智人口型、表情更到位?!?/p>

如今用戶可以通過兩三分鐘的視頻,借助騰訊云智能的相關功能,就可以獲得自己的虛擬數(shù)智人。這其中,像是3分鐘的視頻或者文本、圖片都是屬于小樣本,但為這些小樣本做背后支撐的都是各種不同的大模型。

比如說,在數(shù)據(jù)獲取和數(shù)據(jù)篩選階段,騰訊訓練通用基礎模型時,引入自監(jiān)督機制,讓AI自己去約束數(shù)據(jù),從而構建通用基礎模型,如通用語音合成/編碼模型、通用3D重建模型、通用人像編輯模型。有了自監(jiān)督機制,3D騰訊數(shù)字人不在需要現(xiàn)場掃描,就可以還原每一道皺紋級的細節(jié),讓3D數(shù)智人更加逼真。

做一個數(shù)智人,現(xiàn)在你只需要3分鐘視頻和100句短語

語音方面,騰訊接入兩大3D口型驅動接口,覆蓋了ARKit、metahuman等不同的建模標準。同時,人像編輯生成技術也是數(shù)智人的重要技術之一,包括人像分割、綠幕去光、背景更換、視線矯正、人像美顏等多個環(huán)節(jié),可以讓數(shù)智人后期制作更加方便快捷。

此外,通過構建大規(guī)模高質量音色數(shù)據(jù)的預訓練基底模型,未來小樣本數(shù)智人還將支持用戶只錄制普通話,即可合成英文及方言語音。

三、數(shù)智人應用千行百業(yè),場景深度還需挖掘

騰訊研究院高級研究員宋揚覺得,虛擬數(shù)字人產(chǎn)業(yè)被用戶普及,既有各類爆款事件結合在一起的造成的熱度助力,如一些網(wǎng)紅數(shù)字人推動C端最直觀的認知和概念普及,又有技術推動、用戶需求、生態(tài)建設和標準等底層支撐。

做一個數(shù)智人,現(xiàn)在你只需要3分鐘視頻和100句短語

他發(fā)現(xiàn)虛擬數(shù)字人發(fā)展的成本正在不斷的下降,AI技術升級能夠讓虛擬數(shù)字人同時有“好看的皮囊”和“有趣的靈魂”,3D數(shù)字人制作的效能也在繼續(xù)提升。AI技術技術驅動數(shù)智人多模型交互還有智慧,并且逐步覆蓋多類型的數(shù)智人生產(chǎn)運營全流程。

從目前發(fā)展的途徑來看,虛擬數(shù)字人將成為企業(yè)降本增效的工具,千行千面的數(shù)字人將成為人機交互新入口,但是數(shù)智人應用的深度還需要挖掘。

結語:走向企業(yè),數(shù)智人成為降本增效好工具

從QQ秀開始,騰訊可以說是最早打造數(shù)字人的企業(yè),在此領域,騰訊已有多年的技術積累。今天,騰訊正式帶來數(shù)智人工廠和小樣本數(shù)智人生產(chǎn)平臺,面對不同的企業(yè)需求,提供相應的企業(yè)服務,幫助各大企業(yè)打造自己的數(shù)智人。

如何打造一個深受用戶喜愛的數(shù)字人,成為所有數(shù)字人玩家共同的考題。而在這道題上,騰訊已經(jīng)交出自己的答卷——打造數(shù)字人工廠。當騰訊的小樣本數(shù)智人生產(chǎn)平臺走入產(chǎn)業(yè)深處將會碰撞出什么樣的火花?我們也將持續(xù)關注數(shù)字人在產(chǎn)業(yè)深處應用的最新動向。