智東西(公眾號(hào):zhidxcom)
編譯?| ?程茜
編輯 | ?李水青

智東西10月15日消息,F(xiàn)acebook在AR領(lǐng)域投入了大量時(shí)間和金錢,包括與雷朋(Ray-Ban)合作,打造自己的AR眼鏡。目前,這些小工具只能記錄和共享圖像,未來Facebook又將會(huì)賦予它們什么功能?

Ego 4D是Facebook在AI領(lǐng)域的一個(gè)長期項(xiàng)目,旨在增強(qiáng)AI從第一人稱視角理解世界并與人類互動(dòng)的能力,解決研究AI對(duì)以自我為中心的感知時(shí)面臨的挑戰(zhàn)。

昨天,F(xiàn)acebook宣布開源Ego 4D(Egocentric?4D Perception)計(jì)劃數(shù)據(jù)集,該計(jì)劃是對(duì)第一人稱或“以自我為中心”的視頻進(jìn)行分析,由兩個(gè)主要部分組成:一個(gè)開放的以自我為中心的視頻數(shù)據(jù)集和一系列Facebook將在未來賦予AI系統(tǒng)的基準(zhǔn)。

據(jù)稱,該數(shù)據(jù)集的開源大大增加了在研究界公開可用的第一人稱視頻的數(shù)據(jù)量,鏡頭時(shí)長比任何其他數(shù)據(jù)集都高出至少20倍。

一、面向AR,讓AI從第一人稱視角理解世界

Facebook開源Ego 4D數(shù)據(jù)集,3000小時(shí)第一人視角視頻,向AR元宇宙躍進(jìn)

此前,AI通常從第三人稱拍攝的照片和視頻中進(jìn)行學(xué)習(xí),但下一代AI將需要從第一視角來展示世界的視頻中學(xué)習(xí)。

以此來看,能夠理解世界的AI系統(tǒng)將會(huì)開啟沉浸式體驗(yàn)的新時(shí)代,因?yàn)樵谖磥鞟R眼鏡和VR頭顯等設(shè)備將會(huì)和智能手機(jī)一樣日常。

Ego 4D計(jì)劃試想讓AI系統(tǒng)能夠使用第一人稱視角不斷分析人們的生活,通過記錄人們的所見所聞所做,以幫助他們完成日常任務(wù)。

但目前,任何AI系統(tǒng)都無法可靠地完成此類任務(wù),F(xiàn)acebook強(qiáng)調(diào)這是一個(gè)研究項(xiàng)目,而不是商業(yè)開發(fā)項(xiàng)目。然而,可以很明顯地看出,F(xiàn)acebook將這些功能視為AR計(jì)算的未來。“當(dāng)然,考慮到增強(qiáng)現(xiàn)實(shí)以及我們希望能夠用它做什么,未來我們可能會(huì)對(duì)這項(xiàng)研究加以利用?!盕acebook AI研究科學(xué)家克里斯汀·格勞曼(Kristen Grauman)在接受外媒The?Verge采訪時(shí)表示。

但Facebook的野心對(duì)用戶的隱私數(shù)據(jù)具有巨大影響。隱私專家已經(jīng)對(duì) Facebook的AR眼鏡表示擔(dān)心,該設(shè)備如何讓佩戴者隱蔽地記錄其他公眾成員,而不會(huì)竊取他人的數(shù)據(jù)。如果未來版本的硬件將佩戴者變成行走的監(jiān)視機(jī)器,用戶不僅可以記錄鏡頭,而且會(huì)分析和轉(zhuǎn)錄,只會(huì)加劇這種擔(dān)憂。

二、數(shù)據(jù)集:855人3205小時(shí)視頻,跨越歐洲中亞

Facebook開源Ego 4D數(shù)據(jù)集,3000小時(shí)第一人視角視頻,向AR元宇宙躍進(jìn)

Ego 4D計(jì)劃包含兩個(gè)任務(wù),分別是推進(jìn)開放的以自我為中心的視頻數(shù)據(jù)集和推進(jìn)AI系統(tǒng)完成一系列基準(zhǔn)或任務(wù)。

Facebook與全球9個(gè)國家13所大學(xué)和實(shí)驗(yàn)室合作收集數(shù)據(jù)。最新數(shù)據(jù)顯示總共有大約3,205小時(shí)的鏡頭,由居住在9個(gè)不同國家的855名參與者錄制。參與者佩戴GoPro相機(jī)和AR眼鏡來錄制無腳本活動(dòng)的視頻,視頻內(nèi)容包括建筑工作、烘焙、與寵物玩耍和與朋友交往等行為。

13所大學(xué)負(fù)責(zé)數(shù)據(jù)收集,并對(duì)部分圖像內(nèi)容進(jìn)行處理,會(huì)對(duì)所有鏡頭進(jìn)行去標(biāo)識(shí)化處理,其中包括模糊旁觀者的面部并刪除所有的個(gè)人身份信息。

格勞曼表示,該數(shù)據(jù)集“在規(guī)模和多樣性方面都是同類中的首創(chuàng)”。她說,同類中位于第二的數(shù)據(jù)集僅包含100小時(shí),且完全位于廚房拍攝的第一人稱鏡頭?!拔覀冏屵@些AI系統(tǒng)的視野不僅僅面向英國和西西里島的廚房,還有來自沙特阿拉伯、東京、洛杉磯和哥倫比亞的鏡頭?!?/p>

三、五大基準(zhǔn)挑戰(zhàn):情景記憶、社交互動(dòng)

Facebook開源Ego 4D數(shù)據(jù)集,3000小時(shí)第一人視角視頻,向AR元宇宙躍進(jìn)

Ego 4D的第二個(gè)組成部分是一系列基準(zhǔn)或任務(wù),F(xiàn)acebook希望世界各地的研究人員使用在其數(shù)據(jù)集上訓(xùn)練的AI系統(tǒng),去嘗試解決這些問題。Facebook為開發(fā)更智能、更有用的AI助手制定了以下五個(gè)基準(zhǔn)挑戰(zhàn),

1、情景記憶(Episodic memory):什么時(shí)候發(fā)生的(例如,“我把鑰匙放哪兒了?”)

2、預(yù)測(cè)(Forecasting):接下來我可能會(huì)做什么(例如,“等等,你已經(jīng)在這個(gè)食譜中加了鹽”)

3、手和物體操作(Hand and object manipulation):我在做什么(例如,“教我如何打鼓”)

4、視聽日記(Audio-visual diarization):誰在什么時(shí)候說什么(例如,“課堂上的主要話題是什么?”)

5、社交互動(dòng)(Social interaction):誰在與誰互動(dòng)(例如,“在這嘈雜的餐廳里幫助我更好地聽到對(duì)話者的聲音”)

目前,AI系統(tǒng)對(duì)上述問題的解決都非常困難,但創(chuàng)建數(shù)據(jù)集和基準(zhǔn)測(cè)試是一種長效方法,可以刺激AI領(lǐng)域的發(fā)展。

事實(shí)上,ImageNet項(xiàng)目已經(jīng)作為創(chuàng)建一個(gè)特定的數(shù)據(jù)集和相關(guān)的年度競賽而存在,該項(xiàng)目是一個(gè)用于視覺對(duì)象識(shí)別軟件研究的大型可視化數(shù)據(jù)庫,通常被認(rèn)為掀起了最近的AI熱潮。ImagetNet數(shù)據(jù)集由研究人員訓(xùn)練AI系統(tǒng),對(duì)大量不同對(duì)象圖片進(jìn)行識(shí)別而得到的數(shù)據(jù)組成。2012年,該比賽的獲勝者使用一種特殊的深度學(xué)習(xí)方法,擊敗了競爭對(duì)手,開啟了當(dāng)前的研究時(shí)代。

Facebook希望其Ego 4D項(xiàng)目能夠?qū)R領(lǐng)域產(chǎn)生類似的影響。該公司表示,在Ego 4D上訓(xùn)練的系統(tǒng)有朝一日不僅可以用于可穿戴相機(jī),還可以用于家庭助理機(jī)器人,這些機(jī)器人也將依靠第一人稱相機(jī)來分析周圍世界。

“該項(xiàng)目有機(jī)會(huì)以一種尚未真正實(shí)現(xiàn)的方式,對(duì)該領(lǐng)域的工作起到促進(jìn)作用?!备駝诼f,“為了將我們的領(lǐng)域從分析人類拍攝的大量照片和視頻的能力,轉(zhuǎn)移到這種流動(dòng)的、持續(xù)的第一人稱視覺流,AR系統(tǒng)、機(jī)器人需要在連續(xù)的背景下理解活動(dòng)。”

四、Facebook“黑料”頻出,數(shù)據(jù)隱私引爭議

Facebook不斷探索AI領(lǐng)域,開發(fā)人工智能監(jiān)控系統(tǒng)。盡管Facebook概述的任務(wù)確實(shí)看起來很實(shí)用,但該公司在這一領(lǐng)域的繼續(xù)探索會(huì)讓很多人感到擔(dān)憂。

原因在于Facebook在隱私方面的記錄非常糟糕,曾經(jīng)發(fā)生過數(shù)據(jù)泄露事件,并收到聯(lián)邦貿(mào)易委員會(huì)(FTC)對(duì)其?50億美元的罰款。它還反復(fù)表明,該公司在許多領(lǐng)域只重視增長和參與,而不是用戶的利益。

令人擔(dān)憂的是,這個(gè)Ego 4D項(xiàng)目中的基準(zhǔn)不包括突出的隱私保護(hù)措施。例如,“視聽日記”功能可以轉(zhuǎn)錄不同人所說的內(nèi)容,從未提及刪除有關(guān)不想被記錄的人的數(shù)據(jù)。

當(dāng)被問及這些問題時(shí),F(xiàn)acebook的一位發(fā)言人在接受外媒The Verge采訪時(shí)表示,它預(yù)計(jì)將進(jìn)一步引入隱私保護(hù)措施。發(fā)言人說:“我們預(yù)計(jì),在公司使用此數(shù)據(jù)集和基準(zhǔn)開發(fā)商業(yè)應(yīng)用程序的范圍內(nèi),他們將為此類應(yīng)用程序開發(fā)保護(hù)措施。例如,在AR眼鏡可以增強(qiáng)某人的聲音之前,他們可能會(huì)遵循一個(gè)協(xié)議來征求其他人的眼鏡許可,或者他們可以限制設(shè)備的范圍,使其只能從正在與佩戴者交談或在其附近的人那里接收聲音?!?/p>

但到目前為止,此類保障措施仍只是假設(shè)性的。

結(jié)語:Facebook大步邁向元宇宙

Facebook以第一人稱視頻數(shù)據(jù)訓(xùn)練人工智能模型,有望開辟新的具有沉浸式甚至是自我意識(shí)的AI,從而應(yīng)用在AR、機(jī)器人等領(lǐng)域。結(jié)合其今年以來對(duì)元宇宙的推崇,可以想象這個(gè)非商業(yè)化的項(xiàng)目日后可能發(fā)揮更大的商業(yè)價(jià)值。

值得一提的是,用戶隱私與數(shù)據(jù)分析的界限如何把握,F(xiàn)acebook將AI系統(tǒng)落地時(shí)如何讓用戶信賴,能夠讓更多用戶參與其中,這是橫跨在Facebook與發(fā)展AI系統(tǒng)面前的鴻溝。

來源、Facebook、The Verge