機器人前瞻(公眾號:robot_pro)
編譯 |? 江宇
編輯 | ?漠影
機器人前瞻4月21日消息,谷歌DeepMind迎來突破性進展,其世界構建AI模型Genie 2展現(xiàn)了在機器人訓練領域的巨大潛力。
DeepMind CEO兼聯(lián)合創(chuàng)始人Demis Hassabis向《60分鐘》節(jié)目展示了這一創(chuàng)新技術,強調其在創(chuàng)建可交互3D環(huán)境及加速機器人學習方面的應用前景。
Genie 2能夠從單一靜態(tài)圖像生成可探索的3D虛擬世界,為AI代理和機器人提供逼真的模擬環(huán)境。
在演示中,DeepMind研究科學家Jack Parker-Holder展示了一張加州瀑布頂部照片,Genie 2將其轉化為類似第一人稱視角的視頻游戲場景。用戶或AI代理可以在虛擬環(huán)境中自由移動,例如在瀑布頂部的水池周圍行走,甚至探索原始圖像中不存在的景觀。

▲實機演示:Genie 2將加州瀑布頂部的照片轉化為類似視頻游戲場景
Hassabis表示,Genie 2的“世界模型”能夠動態(tài)生成環(huán)境,模擬現(xiàn)實世界的物理特性。這種能力使其不僅適用于娛樂領域(如生成游戲和視頻),更重要的是為AI和機器人提供高效的訓練平臺。
Hassabis強調,Genie 2的核心目標是構建理解現(xiàn)實世界的模型,為機器人訓練提供低成本、高效率的解決方案。傳統(tǒng)的機器人數(shù)據(jù)采集受限于現(xiàn)實世界的復雜性和高成本,數(shù)據(jù)量有限且收集速度慢。
而Genie 2的模擬環(huán)境可以生成近乎無限的數(shù)據(jù)量,允許機器人在虛擬世界中進行初步學習,隨后通過少量現(xiàn)實世界數(shù)據(jù)進行微調。
在一個演示中,AI控制的騎士角色在一個由Genie 2生成的3D環(huán)境中自主完成任務,例如從三個門廊中選擇正確路徑并爬上樓梯。Hassabis指出,這種技術可以讓機器人在模擬環(huán)境中學習復雜任務,如導航、物體交互和決策制定,從而大幅減少對現(xiàn)實世界數(shù)據(jù)的依賴。

▲實機演示:AI騎士角色在由Genie 2生成的3D環(huán)境中自主完成任務
Hassabis透露,DeepMind正在探索利用谷歌地圖、谷歌地球和街景視圖等地理數(shù)據(jù),進一步增強AI的世界理解能力。這些數(shù)據(jù)可以為AI提供豐富的現(xiàn)實世界背景,幫助機器人更好地適應真實環(huán)境。
同時,Genie 2還能將靜態(tài)圖像(如街景或個人度假照片)轉化為交互式3D場景,為機器人訓練和用戶體驗開辟新可能性。
Hassabis還表示,未來版本的Genie模型將能夠創(chuàng)建更多樣化、復雜的虛擬世界,為機器人學習新技能、執(zhí)行任務以及與人類和物體交互提供支持。這一技術不僅有望革新機器人開發(fā),還可能在工業(yè)、醫(yī)療和探索等領域推動智能化應用的廣泛普及。
來源:CBS NEWS