4月1日-2日,2025中國(guó)生成式AI大會(huì)(北京站)「GenAICon 2025北京站」將在北京中關(guān)村東升科技園萬(wàn)麗酒店盛大舉辦。中國(guó)生成式AI大會(huì)已成功舉辦三屆,現(xiàn)已成為國(guó)內(nèi)人工智能領(lǐng)域最具影響力的產(chǎn)業(yè)峰會(huì)之一。

本次大會(huì)繼續(xù)由智一科技旗下智猩猩、智東西共同發(fā)起,以“大拐點(diǎn) 新征程”為主題,邀請(qǐng)到50+位重量級(jí)嘉賓同臺(tái)分享和交鋒,深入解構(gòu)DeepSeek引發(fā)的變革狂潮,全面展示國(guó)內(nèi)生成式AI重大進(jìn)展。大會(huì)也是“智領(lǐng)未來(lái)”北京人工智能系列活動(dòng)之一。

大會(huì)主會(huì)場(chǎng)首日將進(jìn)行開(kāi)幕式、GenAI應(yīng)用論壇,次日全天將進(jìn)行大模型峰會(huì);分會(huì)場(chǎng)則會(huì)先后組織DeepSeek R1與推理模型技術(shù)研討會(huì)、AI智能體技術(shù)研討會(huì)和具身智能大模型技術(shù)研討會(huì)。其中,三場(chǎng)研討會(huì)為閉門制,主要面向持有閉門專享票、貴賓通票的觀眾開(kāi)放。

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025

作為本次大會(huì)的三場(chǎng)技術(shù)研討會(huì)之一,具身智能大模型技術(shù)研討會(huì)將在4月2日下午進(jìn)行,由主題報(bào)告和圓桌Panel兩個(gè)環(huán)節(jié)組成。

目前邀請(qǐng)到北京智源人工智能研究院研究員郝孝帥,北京大學(xué)在讀博士、RoboMamba一作劉家銘,清華大學(xué)ISRLab在讀博士生、星動(dòng)紀(jì)元實(shí)習(xí)研究員郭彥江,清華大學(xué)TSAIL團(tuán)隊(duì)博士生、RDT一作劉松銘,上海人工智能實(shí)驗(yàn)室具身智能中心青年研究員汪汗青,群核科技科研算法專家汪仁涵6位來(lái)自學(xué)術(shù)界和工業(yè)界的青年學(xué)者和技術(shù)專家?guī)?lái)主題報(bào)告。

圓桌Panel環(huán)節(jié)由郝孝帥老師、劉家銘博士、郭彥江博士、汪汗青老師以及光輪智能具身數(shù)據(jù)交付負(fù)責(zé)人甘宇飛5位嘉賓參與,其中,郭彥江博士作為特邀主持,主持研討會(huì)及圓桌Panel環(huán)節(jié)。

郝孝帥老師將為本次研討會(huì)帶來(lái)開(kāi)場(chǎng)報(bào)告。郝孝帥老師目前是智源研究院的具身多模態(tài)大模型研究員,曾在CVPR和ICCV等頂級(jí)會(huì)議上獲得6項(xiàng)國(guó)際前3名的成績(jī)。本次報(bào)告將重點(diǎn)講解北大聯(lián)合智源研究院、港大等提出的統(tǒng)一具身多模態(tài)大腦模型RoboBrain。該模型首次實(shí)現(xiàn)了任務(wù)規(guī)劃-可操作區(qū)域感知-軌跡預(yù)測(cè)的三維能力融合,相關(guān)論文已收錄于CVPR 2025頂會(huì)。

北京大學(xué)聯(lián)合智平方、BAAI推出了高效的端到端VLA具身大模型RoboMamba,僅需調(diào)整0.1%的模型參數(shù)就能掌握操作技能,推理速度比現(xiàn)有VLA模型快3倍。劉家銘博士RoboMamba一作,論文已收錄于NeurIPS 2024。本次研討會(huì)劉家銘博士將從VLA 模型的輸入方式、VLA架構(gòu)設(shè)計(jì)、VLA訓(xùn)練策略、VLA輸出機(jī)制這四個(gè)方面進(jìn)行深入討論,詳解RoboMamba。

清華大學(xué)ISRLab在讀博士生、星動(dòng)紀(jì)元實(shí)習(xí)研究員郭彥江師從陳建宇教授。郭彥江博士參與的論文成果Advancing Humanoid Locomotion曾獲RSS 2024最佳論文提名獎(jiǎng)。本次研討會(huì)郭博士將探討如何基于視頻世界模型構(gòu)建通用的機(jī)器人操作策略,具體包括收錄于NeurIPS 2024頂會(huì)的成果Prediction with Action(PAD),以及Video Prediction Policy(VPP)等兩項(xiàng)成果。

清華大學(xué)TSAIL團(tuán)隊(duì)開(kāi)源的擴(kuò)散基座模型RDT,擁有模型參數(shù)量1.2B,是目前最大的用于用于雙臂機(jī)器人操作的擴(kuò)散基座模型,還曾登頂HF具身熱榜。劉松銘博士RDT一作,研究方向是具身智能和AI for Science。本次研討會(huì)劉松銘博士將以《雙臂機(jī)器人操作擴(kuò)散大模型RDT》為主題帶來(lái)報(bào)告。

今年2月,上海AI Lab發(fā)布通用具身智能仿真平臺(tái)桃源2.0。在首個(gè)城市級(jí)大規(guī)模仿真平臺(tái)桃源1.0的基礎(chǔ)上,桃源2.0全新升級(jí),具備大規(guī)模數(shù)據(jù)生產(chǎn)能力,數(shù)據(jù)采集方式實(shí)現(xiàn)了三大方面的革新,并可以多樣化和易用性適配多類型機(jī)器人。汪汗青老師作為主要負(fù)責(zé)人帶領(lǐng)實(shí)驗(yàn)室團(tuán)隊(duì)開(kāi)發(fā)了桃源,提出了虛實(shí)貫通技術(shù)框架以系統(tǒng)化解決現(xiàn)存問(wèn)題,以桃源2.0平臺(tái)作為關(guān)鍵紐帶,構(gòu)建了”真實(shí)-仿真-真實(shí)”閉環(huán)技術(shù)路徑。

3月19日,被稱為“杭州六小龍”之一群核科技自主研發(fā)的空間理解模型SpatialLM正式開(kāi)源。該模型突破了大語(yǔ)言模型對(duì)物理世界幾何與空間關(guān)系的理解局限,為具身智能提供空間理解基礎(chǔ)訓(xùn)練框架。而群核空間智能解決方案SpatialVerse與SpatialLM模型之間協(xié)同合作,打通了”真實(shí)-仿真-真實(shí)” 的閉環(huán)路徑,為智能體提供無(wú)限迭代的感知-決策-行動(dòng)閉環(huán)訓(xùn)練,驅(qū)動(dòng)具身智能從“有限訓(xùn)練”邁向“無(wú)限進(jìn)化。本次研討會(huì)群核科技科研算法專家汪仁涵將帶來(lái)報(bào)告,主題為《打破數(shù)據(jù)之困,讓具身智能走進(jìn)物理世界》

一、具身智能大模型技術(shù)研討會(huì)議程

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025

二、報(bào)告嘉賓及主題概要介紹

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025

報(bào)告嘉賓:北京智源人工智能研究院研究員 郝孝帥

報(bào)告主題:統(tǒng)一具身多模態(tài)大腦模型RoboBrain

內(nèi)容概要:本次報(bào)告我將從以下兩方面進(jìn)行解讀:

(1)我們提出了ShareRobot,一個(gè)大規(guī)模、高質(zhì)量、細(xì)粒度的異構(gòu)數(shù)據(jù)集,涵蓋102個(gè)場(chǎng)景、12種機(jī)器人本體和107種原子任務(wù),包含百萬(wàn)級(jí)問(wèn)答對(duì)。數(shù)據(jù)集標(biāo)注了任務(wù)規(guī)劃、對(duì)象可操作區(qū)域和末端執(zhí)行器軌跡等多維信息,填補(bǔ)了現(xiàn)有數(shù)據(jù)在多樣性、粒度和任務(wù)復(fù)雜性上的不足,為機(jī)器人學(xué)習(xí)與規(guī)劃提供了全面支持。

(2)基于ShareRobot,我們提出了RoboBrain,一個(gè)統(tǒng)一具身多模態(tài)大腦模型,首次實(shí)現(xiàn)任務(wù)規(guī)劃-可操作區(qū)域感知-軌跡預(yù)測(cè)的三維能力融合。RoboBrain將抽象指令(如“準(zhǔn)備一杯茶”)映射為具象動(dòng)作序列(如抓取、對(duì)準(zhǔn)、傾倒),并同步生成可操作區(qū)域與精確軌跡,顯著提升機(jī)器人在具身長(zhǎng)程操作任務(wù)中的能力。該模型通過(guò)多模態(tài)協(xié)同,解決了傳統(tǒng)方法在任務(wù)分解、感知與動(dòng)作生成中的割裂問(wèn)題,為復(fù)雜機(jī)器人操作提供了全新解決方案。

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025

報(bào)告嘉賓:北京大學(xué)在讀博士、 Robomamba一作 劉家銘

報(bào)告主題:構(gòu)建魯棒且高效的視覺(jué)-語(yǔ)言-動(dòng)作大模型RoboMamba

內(nèi)容概要:本報(bào)告旨在探討如何構(gòu)建更 魯棒且高效 的 視覺(jué)-語(yǔ)言-動(dòng)作(VLA)大模型,并從以下四個(gè)方面展開(kāi)深入討論:1)VLA 模型的輸入方式,2)VLA架構(gòu)設(shè)計(jì),3)VLA訓(xùn)練策略,4)VLA輸出機(jī)制。同時(shí),我們還將分析當(dāng)前行業(yè)內(nèi) VLA 發(fā)展的最新趨勢(shì),并介紹自研的 高效 VLA 模型—RoboMamba。具體來(lái)說(shuō),RoboMamba是一個(gè)高效的端到端VLA具身大模型,專為機(jī)器人場(chǎng)景優(yōu)化設(shè)計(jì),旨在實(shí)現(xiàn)高效的推理與操作能力。這一成果以題為《RoboMamba:具備機(jī)器人推理與操控能力的高效視覺(jué)-語(yǔ)言-動(dòng)作大模型》的論文,發(fā)表在全球頂級(jí)學(xué)術(shù)會(huì)議NeurIPS 2024上。

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025

報(bào)告嘉賓:清華大學(xué)ISRLab在讀博士生、星動(dòng)紀(jì)元實(shí)習(xí)研究員 郭彥江

報(bào)告主題:基于世界模型的通用機(jī)器人策略學(xué)習(xí)

內(nèi)容概要:構(gòu)建通用的操作模型是通用機(jī)器人最有挑戰(zhàn)性的一個(gè)部分,機(jī)器人需要具備豐富的物理先驗(yàn)知識(shí),才能泛化到新任務(wù)。視頻生成大模型在互聯(lián)網(wǎng)視頻數(shù)據(jù)上進(jìn)行了大規(guī)模預(yù)訓(xùn)練,能夠預(yù)測(cè)合理的未來(lái)發(fā)展軌跡,壓縮了豐富的物理先驗(yàn)知識(shí)。本次演講主題是如何基于視頻世界模型構(gòu)建通用的機(jī)器人操作策略,具體包括Prediction with Action(PAD),Video Prediction Policy(VPP)等兩項(xiàng)工作。

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025

報(bào)告嘉賓:清華大學(xué)TSAIL團(tuán)隊(duì)博士生、RDT一作 劉松銘

報(bào)告主題:雙臂機(jī)器人操作擴(kuò)散大模型RDT

內(nèi)容概要:我們提出了一種用于雙臂機(jī)器人操作的擴(kuò)散基座模型——Robotics Diffusion Transformer(RDT),該模型以擴(kuò)散模型作為基礎(chǔ),能夠有效地表示多峰的人類動(dòng)作分布,并采用可擴(kuò)展的Transformer架構(gòu)來(lái)處理異構(gòu)的多模態(tài)輸入,捕捉機(jī)器人數(shù)據(jù)中的非線性和高頻特性。為了解決數(shù)據(jù)稀缺問(wèn)題,文章進(jìn)一步引入了一種物理可解釋的統(tǒng)一動(dòng)作空間,該空間可以統(tǒng)一各種機(jī)器人的動(dòng)作表示,并保留原始動(dòng)作的物理含義,方便學(xué)習(xí)可遷移的物理知識(shí)。通過(guò)這些設(shè)計(jì),我們成功地在目前(截止文章公布時(shí),下同)最大的多機(jī)器人數(shù)據(jù)集上對(duì)RDT進(jìn)行了預(yù)訓(xùn)練,并將其擴(kuò)展到12億個(gè)參數(shù),這是目前用于機(jī)器人操作的最大的基于擴(kuò)散建模的基礎(chǔ)模型。最后,我們?cè)谝粋€(gè)自己收集的多任務(wù)雙臂數(shù)據(jù)集上對(duì)RDT進(jìn)行了微調(diào),以提高其雙臂操作能力。在真實(shí)機(jī)器人實(shí)驗(yàn)中,RDT明顯優(yōu)于現(xiàn)有方法。它能夠零樣本泛化到未見(jiàn)過(guò)的物體和場(chǎng)景,理解和遵循語(yǔ)言指令,僅需1~5個(gè)演示就能學(xué)習(xí)新的技能,并有效地處理復(fù)雜的靈巧任務(wù)。該項(xiàng)目的代碼、模型和數(shù)據(jù)均已開(kāi)源,請(qǐng)?jiān)L問(wèn)項(xiàng)目主頁(yè)https://rdt-robotics.github.io/rdt-robotics/。

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025

報(bào)告嘉賓:上海人工智能實(shí)驗(yàn)室具身智能中心青年研究員 汪汗青

報(bào)告主題:桃源2.0推動(dòng)通用具身智能邁向虛實(shí)貫通之路

內(nèi)容概要:在實(shí)現(xiàn)通用具身智能所面臨的關(guān)鍵挑戰(zhàn)中,首當(dāng)其沖的是可用數(shù)據(jù)的稀缺問(wèn)題:底層海量互聯(lián)網(wǎng)數(shù)據(jù)存在質(zhì)量低、標(biāo)注缺失等問(wèn)題;頂層的同構(gòu)真機(jī)數(shù)據(jù)成本極高,且存在多樣性問(wèn)題。仿真數(shù)據(jù)雖具理論無(wú)限性,卻受限于數(shù)字資產(chǎn)、專家演示和虛實(shí)鴻溝難題。針對(duì)上述問(wèn)題,我們提出”虛實(shí)貫通”技術(shù)框架以系統(tǒng)化解決現(xiàn)存問(wèn)題,通過(guò)”桃源(GRUtopia)2.0″平臺(tái)作為關(guān)鍵紐帶,構(gòu)建了”真實(shí)-仿真-真實(shí)”閉環(huán)技術(shù)路徑。桃源2.0具有以下特性:

– 模塊化仿真框架:支持導(dǎo)航、操作、運(yùn)動(dòng)控制等全任務(wù)類型,通過(guò)”三行代碼”快速定義具身任務(wù),實(shí)現(xiàn)多任務(wù)開(kāi)發(fā)平臺(tái)統(tǒng)一;

– 智能場(chǎng)景生成:集成十萬(wàn)級(jí)場(chǎng)景庫(kù)與百萬(wàn)級(jí)物體庫(kù),結(jié)合自動(dòng)化生成與隨機(jī)化工具,實(shí)現(xiàn)復(fù)雜場(chǎng)景一鍵構(gòu)建與數(shù)據(jù)無(wú)限擴(kuò)增;

– 高效數(shù)據(jù)工場(chǎng):提供操作/全身控制遙操作工具與導(dǎo)航批量化采集系統(tǒng),單機(jī)單日可獲取15,000條高質(zhì)量導(dǎo)航軌跡,大幅降低多元數(shù)據(jù)采集門檻。

我們通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了“虛實(shí)貫通”技術(shù)框架在突破仿真內(nèi)容生產(chǎn)瓶頸的同時(shí)能夠有效彌合虛實(shí)鴻溝。相信通過(guò)相關(guān)模型、工具鏈的研發(fā)和開(kāi)源開(kāi)放,我們能夠和具身智能領(lǐng)域的研究人員共同探索一條新的通往通用具身智能的降本增效路徑。

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025

報(bào)告嘉賓:群核科技科研算法專家 汪仁涵

報(bào)告主題:打破數(shù)據(jù)之困,讓具身智能走進(jìn)物理世界

內(nèi)容概要:數(shù)據(jù)生成能力是具身AI的“創(chuàng)新引擎”!如何賦予AI跨模態(tài)認(rèn)知與未知環(huán)境自適應(yīng)能力,為智能體提供無(wú)限迭代的感知-決策-行動(dòng)閉環(huán)訓(xùn)練,驅(qū)動(dòng)具身智能從“有限訓(xùn)練”邁向“無(wú)限進(jìn)化”。

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025

報(bào)告嘉賓:光輪智能具身數(shù)據(jù)交付負(fù)責(zé)人 甘宇飛

嘉賓介紹:甘宇飛現(xiàn)任光輪智能具身數(shù)據(jù)交付負(fù)責(zé)人,負(fù)責(zé)從資產(chǎn)生產(chǎn)、場(chǎng)景搭建、遙操作數(shù)據(jù)采集到算法驗(yàn)證的全流程質(zhì)量控制,保障具身資產(chǎn)合成技術(shù)方案的可行性及規(guī)?;涞?。他在合成數(shù)據(jù)技術(shù)領(lǐng)域擁有豐富實(shí)踐經(jīng)驗(yàn),技術(shù)方案曾覆蓋互聯(lián)網(wǎng)、自動(dòng)駕駛及具身智能等方向。加入光輪前,甘宇飛曾擔(dān)任蔚來(lái)汽車4D BEV自動(dòng)標(biāo)注負(fù)責(zé)人,在螞蟻集團(tuán)作為某海外事業(yè)線算法團(tuán)隊(duì)負(fù)責(zé)人。

三、報(bào)名方式

具身智能大模型技術(shù)研討會(huì)將在大會(huì)次日分會(huì)場(chǎng)下午進(jìn)行,主要向持有閉門專享票、貴賓通票的觀眾開(kāi)放。

希望參加研討會(huì)的朋友,可以掃描下方二維碼,添加小助手“泡泡”咨詢和購(gòu)票。已添加過(guò)“泡泡”的老朋友,給“泡泡”私信,發(fā)送“GenAICon25”即可。

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025

除了閉門專享票、貴賓通票,大會(huì)還設(shè)有主會(huì)場(chǎng)觀眾票、主會(huì)場(chǎng)VIP票,在主會(huì)場(chǎng)的座位分布如下。有需要的朋友可以進(jìn)行免費(fèi)申請(qǐng)或購(gòu)買。

囊括四大技術(shù)路線頂尖研究成果!具身智能大模型技術(shù)研討會(huì)最終議程公布 | GenAICon 2025