深度強(qiáng)化學(xué)習(xí)已經(jīng)廣泛應(yīng)用于工業(yè)制造、仿真模擬、機(jī)器人控制、優(yōu)化與調(diào)度、游戲博弈等領(lǐng)域。其中,用于視覺控制的深度強(qiáng)化學(xué)習(xí)旨在學(xué)習(xí)給定觀察圖像的最優(yōu)策略,實(shí)現(xiàn)了對(duì)機(jī)器人的行為控制。但受自身學(xué)習(xí)能力的制約,在處理高維狀態(tài)與動(dòng)作空間下的控制問題時(shí),存在樣本利用率低以及算法不易收斂等缺陷,嚴(yán)重限制了深度強(qiáng)化學(xué)習(xí)方法對(duì)機(jī)器人運(yùn)動(dòng)的控制能力。

隨著Transformer在學(xué)習(xí)視覺和語言表示方面取得了巨大的成功,將Transformer引入視覺控制模型中成為研究人員的一種新選擇。在視覺控制中,學(xué)習(xí)可在不同控制任務(wù)間遷移的可遷移狀態(tài)表示,對(duì)于提升樣本利用率具有重要意義。然而,將Transformer移植到采樣高效的視覺控制仍然有很大的難度。

為此,香港大學(xué)穆堯博士等人提出了一種新穎的控制Transformer框架CtrlFormer。CtrlFormer在不同控制任務(wù)之間聯(lián)合學(xué)習(xí)視覺令牌和策略令牌之間的自注意力機(jī)制,可以在不發(fā)生災(zāi)難性遺忘的情況下學(xué)習(xí)和遷移多任務(wù)表示。此外,還設(shè)計(jì)了一個(gè)對(duì)比強(qiáng)化學(xué)習(xí)范式來訓(xùn)練CtrlFormer,使其能夠達(dá)到較高的樣本效率。

在DMControl基準(zhǔn)測(cè)試中,最近的先進(jìn)方法在使用100k樣本遷移學(xué)習(xí)后在“Cartpole”任務(wù)中產(chǎn)生零分而失敗,而CtrlFormer可以在僅使用100k樣本的情況下獲得769±34的最先進(jìn)的分?jǐn)?shù),同時(shí)保持之前任務(wù)的性能。

8月31日晚7點(diǎn),「AI新青年講座」第152講邀請(qǐng)到香港大學(xué)在讀博士穆堯參與,主講《深度強(qiáng)化學(xué)習(xí)的多任務(wù)遷移及其在機(jī)器人上的應(yīng)用》。

第152講

主題

深度強(qiáng)化學(xué)習(xí)的多任務(wù)遷移及其在機(jī)器人上的應(yīng)用

提綱

1、視覺控制在機(jī)器人中的應(yīng)用與挑戰(zhàn)
2. 基于CtrlFormer的深度強(qiáng)化學(xué)習(xí)多任務(wù)遷移
3、對(duì)比強(qiáng)化學(xué)習(xí)訓(xùn)練框架
4、機(jī)器人控制任務(wù)中的視覺泛化性

講者介紹

穆堯,香港大學(xué)在讀博士,師從羅平老師,現(xiàn)主要研究方向包括強(qiáng)化學(xué)習(xí)、機(jī)器人控制和表示學(xué)習(xí), 在 NeurIPS、ICML、CVPR、IJCAI等頂級(jí)會(huì)議發(fā)表論文5篇,曾獲ICCAS 2020最優(yōu)學(xué)生論文獎(jiǎng),IV2021最優(yōu)學(xué)生論文提名獎(jiǎng)。

課程信息

直播時(shí)間:8月31日19:00
直播地點(diǎn):智東西公開課知識(shí)店鋪