智東西(公眾號:zhidxcom)
文 |?國際計算機學(xué)會

日前,國際計算機學(xué)會(ACM)對聯(lián)想集團首席技術(shù)官、高級副總裁、ACM Fellow芮勇博士進行了專訪。在專訪中,芮博士講述了自己的學(xué)術(shù)研究生涯,并對行業(yè)未來的技術(shù)發(fā)展,如智能手機、AR,多媒體計算等進行了分析和解讀。以下是專訪的中文譯文版。

國際計算機學(xué)會訪談芮勇:多媒體計算、AR和智能手機的未來

Q1、您是怎樣進入多媒體計算研究領(lǐng)域的?

在我讀本科和碩士的時候,我的方向是控制理論和大規(guī)模系統(tǒng)優(yōu)化。這些專業(yè)知識對我后來在多媒體領(lǐng)域的研究工作,比如“相關(guān)性反饋(relevance feedback)”,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等,都發(fā)揮了重要的作用。

在伊利諾伊大學(xué)厄巴納-香檳分校讀博期間,我開始從事多媒體分析和檢索的研究。那時,互聯(lián)網(wǎng)還處于幼年時期,Web瀏覽器剛剛出現(xiàn),而搜索引擎還沒有誕生。在那個時代,圖像搜索的概念相當(dāng)超前。

當(dāng)時我遇到了一個很好的機會。美國國家自然科學(xué)基金會設(shè)立并資助了 “數(shù)字圖書館”項目。我有幸參與其中。我把控制理論,信息檢索和計算機視覺這三個領(lǐng)域融合起來,進行了深入的跨學(xué)科研究,最終,我成為第一批基于相關(guān)性反饋實現(xiàn)圖像搜索的研究者,為圖像搜索創(chuàng)造了一種全新的模式?!跋嚓P(guān)性反饋”是一種通過用戶先前的搜索結(jié)果和行為模式分析而優(yōu)化搜索結(jié)果的方法。

獲得博士學(xué)位后,我開始了在微軟18年的職業(yè)生涯。在那里,我繼續(xù)從事多媒體分析、理解和檢索,機器學(xué)習(xí),計算機視覺和模式識別等領(lǐng)域的研究工作。

現(xiàn)在,作為聯(lián)想的首席技術(shù)官和聯(lián)想研究院的領(lǐng)導(dǎo)者,我將繼續(xù)帶領(lǐng)團隊推進多媒體計算的發(fā)展,并將最前沿的多媒體研究成果融入到聯(lián)想的產(chǎn)品和服務(wù)中去。

Q2、如今這個時代,每天都會產(chǎn)生大量的多媒體數(shù)據(jù),那么在未來,多媒體分析和檢索有什么能為社會帶來重要價值的新興應(yīng)用?

從技術(shù)的角度來說,以深度學(xué)習(xí)為代表的人工智能算法正在并將繼續(xù)促進多媒體研究,尤其近期深度學(xué)習(xí)較好構(gòu)建了基于多模態(tài)(multi-modality)的算法框架,使得跨領(lǐng)域的多媒體數(shù)據(jù)的有效融合、利用/檢索成為可能。

比如圖像和視頻的描述(captioning)。幾年前,描述能做的只是給圖像或視頻自動打上標(biāo)簽(tag)。而深度學(xué)習(xí)建立了計算機視覺和自然語言處理之間的連接,可以將零散的標(biāo)簽變成一句基于視覺內(nèi)容并且通順連貫的自然語言描述。

隨著相關(guān)領(lǐng)域和硬件設(shè)備的進一步發(fā)展,圖像/視頻描述甚至將支持一段(多句)關(guān)于內(nèi)容的自然語言描述,也將支持更自然的用戶交互系統(tǒng);支持的模態(tài)(modality)也會超越計算機視覺和自然語言處理的范圍,例如,可以導(dǎo)入語音特征(voice features), 空間深度信息(depth feature), 文本特征(text features)等。

Q3、智能手機是人們消費多媒體內(nèi)容的主要渠道之一,聯(lián)想也是智能手機制造商。根據(jù)現(xiàn)有研究和產(chǎn)品開發(fā)的進展,您認為未來的智能手機會是怎樣的?

從技術(shù)的角度來看,未來,像人工智能、VR/AR, 5G, 實時翻譯,新電池技術(shù)以及全息技術(shù)的發(fā)展,將深刻改變智能手機和用戶的體驗。

具體而言,無邊框屏(infinity screen),神經(jīng)網(wǎng)絡(luò)處理器(NPU),以及更多的傳感器可能會出現(xiàn)在智能手機上。在傳感器方面,手機將會融合生物特征傳感器、深度攝像頭,多攝像頭以及更好的計算機視覺技術(shù)。此外,5G的發(fā)展將為智能手機用戶帶來10倍帶寬和零延遲。

智能手機的形態(tài)也可能會發(fā)生大的變化。其中一個可能性是可折疊手機。比如,2016年,聯(lián)想研究院研發(fā)出業(yè)界第一個真正的可折疊手機原型CPlus和Folio。CPlus可以在手機和腕表之間轉(zhuǎn)換形態(tài),而Folio則可以在平板和手機之間隨意切換。

Q4、聯(lián)想正在進軍AR/VR領(lǐng)域,比如聯(lián)想VR Classroom以及迪斯尼和聯(lián)想合作推出的《星球大戰(zhàn):絕地挑戰(zhàn)》AR設(shè)備Lenovo Mirage。AR/VR技術(shù)已存在了幾十年,為什么現(xiàn)在這些技術(shù)正在走向主流?

是的,AR/VR技術(shù)已經(jīng)存在了幾十年。但近年來的技術(shù)突破,比如光學(xué)鏡頭,計算機視覺以及slam(simultaneous localization and mapping, 即時定位與地圖構(gòu)建),讓AR/VR技術(shù)開始加速發(fā)展,巨大潛力開始顯現(xiàn)。另外,AR/VR可以幫助解決很多行業(yè)上的痛點問題,也能夠給用戶帶來全新的娛樂體驗。

我個人認為,與VR相比,未來AR很可能會成為一個更大的、更有前景的平臺。尤其是當(dāng)AR與垂直行業(yè)結(jié)合時,比如教育,培訓(xùn)以及工業(yè)維護等。在聯(lián)想2017Tech World上,我們展示了聯(lián)想研究院研發(fā)的晨星AR(daystAR)眼鏡原型以及我們的AR平臺。一位工程師在現(xiàn)場展示了如何利用這些AR設(shè)備和平臺維修出現(xiàn)故障的飛機發(fā)動機,生動地詮釋了AR技術(shù)在垂直領(lǐng)域的廣闊應(yīng)用前景。

國際計算機學(xué)會訪談芮勇:多媒體計算、AR和智能手機的未來