智東西(公眾號:zhidxcom)
作者 | 許麗思
編輯 | 漠影

“AI教母”李飛飛的學生回國創(chuàng)業(yè)了,想聯(lián)合打造一雙更靈活的“手”,來回答具身智能商業(yè)化的終極命題。

靈初智能,由在黑莓、Sonos、云跡科技等全球知名企業(yè)有過20多年的產(chǎn)品成功操盤經(jīng)驗的王啟斌創(chuàng)辦。他堅定認為,人形機器人在落地過程中,操作能力遠比移動能力重要,存在著巨大的尚未被滿足的需求。

而00后陳源培,是靈初智能的聯(lián)合創(chuàng)始人之一,也是斯坦福大學訪問學者、師從李飛飛。在李飛飛的實驗室里,他研究怎么讓靈巧手完成復雜長程任務和類人操作,曾在全球首次實現(xiàn)利用強化學習在真實世界同時控制雙臂、雙手多技能操作。

這是一個跨越了70后、80后、90后和00后多個年齡梯度的核心團隊,他們想要教會機器人能把多個技能串聯(lián)起來、執(zhí)行長程任務,還要學會自主探索、自主進階。

靈初智能是當前最年輕的具身智能創(chuàng)企之一,今年9月剛剛成立,上個月宣布完成由高瓴、藍馳領(lǐng)投的天使輪融資,已發(fā)布首個基于強化學習的端到端具身模型,能支持機器人雙靈巧手協(xié)同做復雜操作、掌握推理能力。

值得一提的是,稚暉君創(chuàng)辦的人形機器人獨角獸智元機器人,也是靈初智能的股東之一。

智東西獲悉,靈初智能不久前還加入了英偉達Inception計劃,雙方會在具身智能的仿真訓練層面展開深度合作?!坝ミ_預判,具身智能是未來加速計算最重要的落地場景,對它的整個生態(tài)包括硬件布局、服務器端芯片、端測芯片到仿真環(huán)境應用等都有很大影響,所以英偉達也一直在尋找具身智能賽道里非常有價值的公司。我們在國內(nèi)搭建完團隊后,一些研究成果就被英偉達關(guān)注到了?!蓖鯁⒈笳f。

最近,智東西來到靈初智能位于北京的辦公室,與創(chuàng)始人兼CEO王啟斌、聯(lián)合創(chuàng)始人陳源培進行了一場面對面的獨家深度對話,這是創(chuàng)始團隊首次接受外界專訪。在與智東西的對話中,王啟斌反復提及“閉環(huán)”。他篤信,操作能力的提升,正是實現(xiàn)具身智能商業(yè)閉環(huán)的關(guān)鍵。

目前,該公司已初步完成核心硬件研發(fā),將于明年3月公布機器人整機解決方案,且只聚焦在雙手雙臂輪式機器人的操作能力上,不會涉及雙足機器人。

00后李飛飛學生聯(lián)合創(chuàng)業(yè),破解世界級機器人難題,被稚暉君投資,獨家對話創(chuàng)始人

一、20年產(chǎn)品老兵聯(lián)手李飛飛學生,挑戰(zhàn)靈巧操作難題

在過去20年,王啟斌在多個領(lǐng)域積累了深厚的操盤經(jīng)驗,多次實現(xiàn)了產(chǎn)品從定義、開發(fā)、上市再到全球“0-1-N”的產(chǎn)業(yè)閉環(huán)。

他在黑莓手機擔任過產(chǎn)品經(jīng)理、投身Sonos開展當時新興的智能音箱業(yè)務,還曾去到了負責研發(fā)商用服務機器人的云跡科技,負責配送機器人相關(guān)的工作。云跡科技當時還是一家初創(chuàng)企業(yè),配送機器人在酒店的部署量不到500家且使用頻次也不高。

如何拓展配送機器人的市場、提升配送效率是一大難題。一般的配送機器人可能需要有專人放置貨物,王啟斌便帶著團隊開始探索無人貨柜和集成對接,打造一套無人的閉環(huán)系統(tǒng),之后還成功在成都、西安、上海等地部署,讓機器人滲透到更多的酒店中。

過往的豐富經(jīng)歷讓他看到,在機器人真正的商業(yè)化落地中,仍存在巨大的需求沒有被滿足,尤其是操作能力提升方面。

王啟斌用坐標軸形容機器人的兩種范式:橫向是移動能力,縱向是操作能力。上一代機器人,主要都是在做移動能力,移動能力在技術(shù)上已經(jīng)出現(xiàn)了輪式、雙足等,移動范圍不斷擴展、移動速度加快,但是操作能力是更復雜、更具有挑戰(zhàn)性的。

不管機器人移動能力有多強,如果做不到操作能力的閉環(huán)的話,仍然是難以長久生存下去的。

去年年底,他決定入局具身智能創(chuàng)業(yè)。從市場未被滿足的巨大需求出發(fā),王啟斌強調(diào)要做到技術(shù)、產(chǎn)品與市場的契合?!坝袝r候大家容易更關(guān)注產(chǎn)品和市場匹配,但我覺得更重要的是技術(shù)和產(chǎn)品,只有技術(shù)的潛力才能支撐得起產(chǎn)品的勢能?!?/p>

00后李飛飛學生聯(lián)合創(chuàng)業(yè),破解世界級機器人難題,被稚暉君投資,獨家對話創(chuàng)始人

▲靈初智能創(chuàng)始人兼CEO?王啟斌

王啟斌開始組建靈初智能的創(chuàng)始團隊。他覺得,在這一輪具身智能熱潮中,硬件本體、算法和數(shù)據(jù)就是推動具身智能前進的“三個輪子”,這“三個輪子”耦合程度至關(guān)重要,而對團隊來說,每一個“輪子”都需要有足夠優(yōu)秀的技術(shù)人才儲備。

對具身智能賽道前景的信心,讓王啟斌找到了同樣滿懷創(chuàng)業(yè)激情的幾位聯(lián)合創(chuàng)始人,其中,有一位00后陳源培。

極客少年、斯坦福訪問學者、師從李飛飛、癡迷機器人……陳源培身上有諸多標簽,還曾在全球首次實現(xiàn)利用強化學習在真實世界同時控制雙臂、雙手多技能操作。

大二時,陳源培就投身機器人制造,和團隊一起從底層機械機構(gòu)、中層電控到上層AI算法,全程自研搭建完整機器人。

他尤其專注于靈巧手操作研究,還以斯坦福訪問學者身份跟隨李飛飛進行研究,主要負責使靈巧手串聯(lián)多個操作以完成搭積木等長程任務,以及研究雙臂機器人的類人操作,如拿取物體、制作咖啡等精細化動作。

與王啟斌一同創(chuàng)業(yè)后,陳源培也依舊保持著與李飛飛研究室的溝通聯(lián)絡,一同交流技術(shù)上的研發(fā)進展。

00后李飛飛學生聯(lián)合創(chuàng)業(yè),破解世界級機器人難題,被稚暉君投資,獨家對話創(chuàng)始人

▲靈初智能聯(lián)合創(chuàng)始人 陳源培

另外,靈初智能還有聯(lián)合創(chuàng)始人柴曉杰博士,他是王啟斌在京東工作時認識的朋友,在機器人及無人駕駛領(lǐng)域從業(yè)15年,擅長算法、仿真、工程、全棧技術(shù),有L4產(chǎn)品落地的數(shù)據(jù)閉環(huán)經(jīng)驗。

靈初智能也與北京大學成立了北大-靈初智能具身靈巧操作聯(lián)合實驗室,由人工智能研究院楊耀東博士擔任聯(lián)合實驗室項目負責人開展橫向課題合作,該實驗室首席科學家梁一韜博士則主要負責研究具身智能體長程任務規(guī)劃。

至此,靈初智能不僅具有深諳產(chǎn)品操盤的業(yè)界資深人士,也搭建起了一個被稱為“科學家密度最高”的技術(shù)隊伍,努力實現(xiàn)團隊在技術(shù)創(chuàng)新與商業(yè)落地上的平衡。

二、從搭積木到商品打包,教機器人串聯(lián)多技能

目前,靈初智能已初步構(gòu)建起一套較為完整的產(chǎn)品體系:在硬件維度,打造雙手雙臂輪式機器人,部分核心硬件系自主研發(fā)成果;在軟件層面,持續(xù)迭代機器人的技能級(指通過機器人能做多少種任務、完成任務的復雜程度和完成任務的質(zhì)量來劃分的一種技能等級),使其具備對上千種物體進行泛化長程操作的能力,能廣泛適配于柔性生產(chǎn)等多元場景。

特別是在機器人長程操作方面,陳源培提出了Psi-C0模型,能夠讓機器人把多個技能串聯(lián)起來,這是世界首次利用強化學習在現(xiàn)實中控制雙臂雙手多技能操作。

例如,向機器人下達完成任意形狀樂高積木搭建任務,機器人可以把翻找、抓取、重定向和插入積木4個技能串聯(lián)起來,最后完成該形狀的搭建。

00后李飛飛學生聯(lián)合創(chuàng)業(yè),破解世界級機器人難題,被稚暉君投資,獨家對話創(chuàng)始人

▲機器人正在完成翻找、抓取、重定向、插入的積木搭建流程

Psi-C0模型依托金字塔狀數(shù)據(jù)結(jié)構(gòu),以人類操作及動作捕捉數(shù)據(jù)為底層數(shù)據(jù),于仿真環(huán)境進行強化學習訓練,其中仿真數(shù)據(jù)構(gòu)成關(guān)鍵中層。

待在仿真環(huán)境中訓練出良好基礎(chǔ)后,便遷移至真實世界,此時僅需補充少量真實世界數(shù)據(jù)進行微調(diào),就能助力機器人跨越sim2real gap,從而提升機器人的操作能力與適應性。

另外,還有梁一韜博士開發(fā)的Psi-P0模型,可以實現(xiàn)開放環(huán)境中復雜任務的任務拆解和規(guī)劃,借自身經(jīng)驗實現(xiàn)自我進階,所支持的任務復雜度和準確度都超越同期OpenAI的VPT和英偉達的Minedojo。

00后李飛飛學生聯(lián)合創(chuàng)業(yè),破解世界級機器人難題,被稚暉君投資,獨家對話創(chuàng)始人

▲Psi-P0模型能夠根據(jù)自身經(jīng)歷進行自我提升

最近,靈初智能又發(fā)布了首個基于強化學習的端到端具身模型Psi?R0,該模型支持雙靈巧手將多個技能串聯(lián)進行復雜操作,還可以實現(xiàn)跨物品、跨場景級別的泛化。

以電商場景為例,商品打包是典型的長程任務作業(yè),需對上萬件商品進行抓取,掃碼,放置,塑料袋打結(jié)等多個操作。Psi R0能夠讓雙靈巧手流暢地完成這一系列動作,可以取代一個完整的現(xiàn)場工位,成為首個基于強化學習訓練完成長程靈巧操作任務的具身機器人。

00后李飛飛學生聯(lián)合創(chuàng)業(yè),破解世界級機器人難題,被稚暉君投資,獨家對話創(chuàng)始人

▲基于Psi?R0模型,機器人能夠自主完成將桌面商品打包的全部操作

王啟斌透露,靈初智能目前已初步完成硬件研發(fā),將于明年3月公布含數(shù)據(jù)采集設備、軟件算法等的整機解決方案;而技能級上,團隊正在打磨樣本,預計明年年中會正式上線。

在落地場景方面,靈初智能預計率先在物流領(lǐng)域實現(xiàn)應用落地,后續(xù)逐步向生產(chǎn)制造領(lǐng)域探索拓展,重點針對傳統(tǒng)非標自動化設備及集成設備因技能單一而難以應對的復雜生產(chǎn)環(huán)節(jié),充分發(fā)揮機器人執(zhí)行多技能組合長程任務的優(yōu)勢。

這一輪具身智能熱潮中,雙足的人形機器人備受關(guān)注。不過對王啟斌來說,基于對目前行業(yè)生態(tài)的判斷,自己只聚焦在雙手雙臂輪式機器人的操作能力上,不會去涉及雙足機器人。

在他的預判里,人形機器人大概會有三個發(fā)展階段,第一階段是3到5年里,面向TO B場景的輪式機器人;第二階段是5到10年里,雙足機器人可能應用場景會變得廣泛;第三階段是8到10年及以上,機器人形態(tài)會變得更多樣化,人形機器人不會是最終答案。

所以就目前階段而言,他認為操作能力的迭代及實現(xiàn)產(chǎn)品閉環(huán)是最重要的,這種重要性遠超過移動能力的迭代發(fā)展。

三、強化學習,突破具身智能“不可達三角”

一直以來,高泛化性、高魯棒性和高泛化性都是具身智能領(lǐng)域的“不可達三角”。

高泛化性要求機器人在變化環(huán)境對不同物體執(zhí)行復雜任務,高魯棒性意味著機器人受干擾時穩(wěn)定正確執(zhí)行任務,高靈巧性指機器人能夠靈活精準地執(zhí)行任務,同時兼顧這三者極有挑戰(zhàn)性的。

陳源培解釋,靈初智能采用強化學習的復合路線,是實現(xiàn)接近或者是超越人類靈巧操作的必經(jīng)之路,也是攻克“不可達三角”的關(guān)鍵。“在模仿學習下,人類操作著機器人示教一遍,機器人的操作水平提升是有上限的;但是強化學習讓機器人進行自主探索、通過自我糾錯來提升能力,會具有非常高的動態(tài)響應能力?!?/span>

具體來說,在靈巧性上,機器人通過強化學習能夠超越過去人類預先編程的局限,能很好地完成如彈鋼琴、轉(zhuǎn)筆、轉(zhuǎn)魔方等甚至其他人類無法實現(xiàn)的靈活操作。

在泛化性上,靈初智能方案是讓機器人在仿真環(huán)境中學習訓練,仿真環(huán)境可對物體的光照、紋理、大小等進行隨機化處理,使訓練數(shù)據(jù)的多樣性遠超真實數(shù)據(jù),從而讓機器人擁有高泛化能力。

而魯棒性方面,傳統(tǒng)的模仿學習僅基于專家數(shù)據(jù),未涉及次優(yōu)數(shù)據(jù)及失敗后如何恢復等情況,而強化學習從無知識智能體起步,歷經(jīng)多次失敗及恢復過程,所以能夠?qū)崿F(xiàn)較高的魯棒性。

王啟斌談道,具身智能的“不可達三角”要關(guān)注技術(shù)起點和發(fā)展路徑。從起點看,基于強化學習,其機器人不僅能在在泛化性上有顯著優(yōu)勢,且在靈巧性上,不同于簡單抓取,強調(diào)的是多技能COT(Chain-of-Thought)概念,也就是將多個單個技能串聯(lián)起來,團隊在這方面時國內(nèi)最領(lǐng)先的。

路徑上,先是在單個技能上實現(xiàn)物體和環(huán)境的泛化,接著利用操作上的多技能串聯(lián)實現(xiàn)靈巧性,最后通過征集強化數(shù)據(jù)提升成功率。靈初智能的整體技術(shù)架構(gòu)使得其在“不可達三角”上起點更高,以及通過合理路徑發(fā)展,最終有望實現(xiàn)更高水平的綜合性能表現(xiàn)。

四、世界模型與機器人行動的耦合,仍是巨大挑戰(zhàn)

今年12月初,李飛飛創(chuàng)辦的空間智能創(chuàng)業(yè)公司W(wǎng)orld Labs宣布在空間智能領(lǐng)域取得重大進展,發(fā)布了一個利用單張圖像就能生成逼真三維世界的模型。另外,谷歌也在差不多的時間發(fā)布了新一代世界模型Genie 2,同樣能夠根據(jù)一張圖生成可供人類或AI智能體游玩的無限3D世界。

“不管是李飛飛還是我們現(xiàn)在做的,有個底層邏輯,那就是都在解決要在什么樣的數(shù)據(jù)中進行訓練的問題,以及仿真是必不可少的。”陳源培說。以計算機視覺領(lǐng)域為例,盡管該領(lǐng)域的數(shù)據(jù)量相比機器人領(lǐng)域多可能幾萬倍,且像圖像生成的難度低于機器人控制,但生成的視頻在細節(jié)等方面仍不夠理想。

而在機器人領(lǐng)域,僅依靠真實性數(shù)據(jù)大概率無法實現(xiàn)良好的控制效果。因此,需要借助無窮無盡的仿真數(shù)據(jù)。比如,可以通過將一張真實世界場景的照片,放到模型中進行隨機化增強,生成比圖片原本包含信息更多的數(shù)據(jù),然后讓機器人進行訓練。

對于世界模型與具身智能模型之間的關(guān)聯(lián),陳源培談道:“具身智能領(lǐng)域同樣需要世界模型,就像人類在行動時依靠大腦中的世界模型進行決策一樣,只不過其數(shù)據(jù)模型的構(gòu)建難度遠超想象?!北M管當前世界模型在視覺方面的預測已取得較大進展,能生成比較符合物理世界的視頻,但對具身智能來說,直接采用的話可解釋性太低,里面也不存在對“行動”的認知,所以要與機器人行動層面實現(xiàn)耦合還是很困難。

而王啟斌覺得,李飛飛的模型可能會先在虛擬游戲之類的領(lǐng)域進行應用,也會借此來提升訓練機器人的仿真環(huán)境。不過,怎么把這種仿真的三維時間空間關(guān)系結(jié)合到機器人的行動上,依舊有漫長的路要走,物體所具有的復雜物理屬性仍然會給機器人訓練帶來很大挑戰(zhàn)。

“世界模型在未來當然會對具身智能模型的發(fā)展產(chǎn)生重大影響,特別是在環(huán)境這一層面”王啟斌說,“不過,Agent(智能體)的本身的能力是從哪里來的呢?像人一樣,人是一種Super Agent,有時候一些能力可能是遺傳的先驗知識積累、是潛意識且不可解釋的。所以,我們現(xiàn)在還是很難簡單快速地直接從世界模型過渡到復雜的物理世界交互,這還是一個需要慢慢探索的過程?!?/p>

結(jié)語:具身智能跨越現(xiàn)階段的浮躁是必然

回顧創(chuàng)業(yè)以來的這一年,王啟斌坦言,還沒有遇到過讓自己覺得很有成就感的瞬間。

“具身智能是一個長線賽道,團隊每個人都很拼,就像源培經(jīng)常晚上不回家就住在公司,就為了盡快把demo做出來,”王啟斌說道,“但是面對取得的成果,我們通??雌饋砗芨吲d,不過也明白這其實只是在這個長線賽道上的滄海一粟,并不是真正的significance,還需要跟著節(jié)奏一步一步走下去。”

面對現(xiàn)在火熱的這波具身智能浪潮,大眾對此或許有過高的期待、行業(yè)發(fā)展會存在一部分泡沫,但他相信,就算熱潮回落,具身智能進入低谷期,低谷也會遠高于今天的發(fā)展起點。

長遠來看,隨著技術(shù)瓶頸的突破和應用場景的拓展,具身智能跨越現(xiàn)階段的浮躁是必然,會逐漸走向更成熟更具價值的發(fā)展方向、走向千家萬戶,只是,還需要多給它一些時間。