「AI新青年講座」將邀請(qǐng)世界頂尖AI研究機(jī)構(gòu)和大學(xué)的科研新青年,主講他們?cè)谟?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對(duì)人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。
有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開課教研團(tuán)隊(duì)進(jìn)行郵件(class@zhidx.com)聯(lián)系。
機(jī)械臂強(qiáng)化學(xué)習(xí)近年來發(fā)展迅速,從運(yùn)動(dòng)規(guī)劃、抓取放置到零件裝配,都涌現(xiàn)了大量研究成果。盡管存在數(shù)據(jù)效率、交互安全、sim2real?gap 等多方面的問題,強(qiáng)化學(xué)習(xí)以其智能決策的特點(diǎn)在機(jī)械臂領(lǐng)域依然大有應(yīng)用前景。
機(jī)械臂強(qiáng)化學(xué)習(xí)的任務(wù)中,獎(jiǎng)勵(lì)函數(shù)起著至關(guān)重要的作用。為了達(dá)到所需的策略,設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)通常需要大量的領(lǐng)域?qū)I(yè)知識(shí)以及反復(fù)試驗(yàn)。來自加州大學(xué)伯克利分校的吳崢博士等人,為了最大限度地減少為接觸豐富的操作任務(wù)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)所涉及的工作量,提出了一種能夠從機(jī)器人的高維觀察(如圖像和觸覺反饋)中提取密集獎(jiǎng)勵(lì)函數(shù)的方法DREM(Dense Rewards for Multimodal Observations)。
與最先進(jìn)的高維獎(jiǎng)勵(lì)學(xué)習(xí)方法相比,DREM不利用對(duì)抗性訓(xùn)練,因此不容易出現(xiàn)相關(guān)的訓(xùn)練不穩(wěn)定性。相反,DREM通過以自我監(jiān)督的方式估計(jì)任務(wù)進(jìn)度來學(xué)習(xí)獎(jiǎng)勵(lì)。最后,通過7自由度機(jī)械臂在釘孔和USB插入兩個(gè)接觸豐富的操作任務(wù)上的實(shí)現(xiàn),證明了其有效性和效率。實(shí)驗(yàn)結(jié)果也表明,與基線相比,用學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)訓(xùn)練的策略具有更好的性能和更快的收斂速度。
7月1日早10點(diǎn),「AI新青年講座」第132講,加州大學(xué)伯克利分校在讀博士吳崢將主講《基于密集獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)及在機(jī)械臂操作上的應(yīng)用》。
講者
吳崢,加州大學(xué)伯克利分校在讀博士;本科畢業(yè)于上海交通大學(xué);目前主要研究方向?yàn)榛跈C(jī)器學(xué)習(xí)的工業(yè)裝配任務(wù),曾在ICRA, IROS, ICLR, Science Robotics等會(huì)議期刊上發(fā)表論文。
第132講
主 題
《基于密集獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)及在機(jī)械臂操作上的應(yīng)用》
提 綱
1、機(jī)械臂接觸豐富操作任務(wù)的介紹
2、傳統(tǒng)強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)學(xué)習(xí)方法的局限性
3、基于任務(wù)進(jìn)度從多模態(tài)輸入中學(xué)習(xí)獎(jiǎng)勵(lì)的方法
4、在機(jī)械臂操作任務(wù)上的應(yīng)用
直 播 信 息
直播時(shí)間:7月1日10:00
直播地點(diǎn):智東西公開課知識(shí)店鋪
成果
DREM:《Learning Dense Rewards for Contact-Rich Manipulation Tasks》
論文鏈接:https://arxiv.org/pdf/2011.08458.pdf