「機(jī)器學(xué)習(xí)前沿講座」,是智東西公開課針對(duì)機(jī)器學(xué)習(xí)領(lǐng)域推出的一檔講座,聚焦于機(jī)器學(xué)習(xí)前沿領(lǐng)域研究成果與進(jìn)展。目前第一季已經(jīng)完結(jié)15講,第二季正在進(jìn)行,我們將持續(xù)邀請(qǐng)研究者、專家與資深開發(fā)者,為大家?guī)?lái)直播講解。
帶噪學(xué)習(xí)是指在訓(xùn)練數(shù)據(jù)的真實(shí)標(biāo)簽發(fā)生了標(biāo)記錯(cuò)誤情況下,如何讓模型在訓(xùn)練時(shí)對(duì)錯(cuò)誤標(biāo)簽魯棒。這個(gè)領(lǐng)域已經(jīng)發(fā)展了很多年,在深度學(xué)習(xí)的背景下,新的方法不斷出現(xiàn)。常見的帶噪學(xué)習(xí)算法有很多,有的是基于自步學(xué)習(xí)的策略在訓(xùn)練時(shí)動(dòng)態(tài)剔除噪音樣本(MentorNet,?co-teaching,?co-teaching+?… ),有的是設(shè)計(jì)一個(gè)loss function,讓loss本身對(duì)標(biāo)簽數(shù)據(jù)魯棒(MAE,?GCE,?L_dmi…)。
基于loss的方法更容易提供理論的最優(yōu)性保證,比如可以證明在給定噪音標(biāo)簽分布下,designed loss在噪音分布下優(yōu)化的結(jié)果等價(jià)于cross entropy在干凈數(shù)據(jù)下優(yōu)化的結(jié)果。在建模label noise時(shí),大多數(shù)網(wǎng)絡(luò)采用的都是random noise (symmetric or asymmetric),然而實(shí)際上在真實(shí)世界的數(shù)據(jù)集中,存在更多的是instance-dependent (feature-dependent) label noise,即特征相關(guān)的噪音標(biāo)簽。比如標(biāo)注人員容易把狼標(biāo)記為狼狗,但是不會(huì)輕易把狼標(biāo)記成桌子。如何讓模型對(duì)instance-dependent label noise 魯棒不僅在技術(shù)上存在著比較多的難題,在理論上也不好建模(和instance-independent相比)。
ICLR2021,加州大學(xué)圣克魯茲分校在讀博士朱兆偉等人在論文《Learning with Instance-Dependent Label Noise: A Sample Sieve Approach》中提出了一個(gè)instance-dependent label noise的解決方案,它可以提供最優(yōu)性的保證。自步學(xué)習(xí)+雙網(wǎng)絡(luò)互相學(xué)習(xí)(co-teaching)的策略對(duì)處理instance-dependent label noise的效果并不好,所以他們對(duì)loss進(jìn)行了改進(jìn),加入了一個(gè)regularizer,這個(gè)regularizer起到一個(gè)推動(dòng)器的作用,可以更好地將噪音樣本和干凈樣本在loss層面上分開從而篩選出干凈樣本。同時(shí)自步學(xué)習(xí)往往被批評(píng)需要pre-defined threshold來(lái)判斷樣本的type (noise or not), 他們針對(duì)這個(gè)問(wèn)題又提出一個(gè)自適應(yīng)的動(dòng)態(tài)閾值來(lái)保證篩選出干凈樣本純度的理論最優(yōu)。
2月23日上午10點(diǎn),智東西公開課邀請(qǐng)到朱兆偉博士參與到「機(jī)器學(xué)習(xí)前沿講座第二季」第3講,帶來(lái)主題為《基于樣本篩選的帶噪學(xué)習(xí)研究》的直播講解。在本次的講解中,朱博將從標(biāo)簽噪聲對(duì)模型訓(xùn)練的影響和帶噪學(xué)習(xí)的定義及現(xiàn)有的一些方法出發(fā),深度講解他們?cè)贗CLR2021中提出的基于置信度的正則項(xiàng)設(shè)計(jì)和CORES方法。對(duì)帶噪學(xué)習(xí)和弱監(jiān)督感興趣的朋友可以關(guān)注學(xué)習(xí)呀。
朱兆偉是加州大學(xué)圣克魯茲分校在讀博士,研究興趣集中在弱監(jiān)督學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等領(lǐng)域相關(guān)的理論,比如,訓(xùn)練標(biāo)簽帶有人為標(biāo)注噪聲時(shí)如何設(shè)計(jì)損失函數(shù)去抵消噪聲影響,如何處理聯(lián)邦學(xué)習(xí)中低質(zhì)量、有系統(tǒng)誤差的本地訓(xùn)練集。他目前在ICLR,ACM Sigmetrics等會(huì)議和IEEE TWC,IEEE TPDS等期刊上發(fā)表多篇一作論文。
直播課介紹
課程主題
《基于樣本篩選的帶噪學(xué)習(xí)研究》
課程提綱
1、標(biāo)簽噪聲對(duì)模型訓(xùn)練的影響
2、帶噪學(xué)習(xí)研究方法
3、基于置信度的正則項(xiàng)設(shè)計(jì)
4、CORES:基于置信正則項(xiàng)的動(dòng)態(tài)樣本篩選
講師介紹
朱兆偉,加州大學(xué)圣克魯茲分校在讀博士,研究興趣集中在弱監(jiān)督學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等領(lǐng)域相關(guān)的理論,比如,訓(xùn)練標(biāo)簽帶有人為標(biāo)注噪聲時(shí)如何設(shè)計(jì)損失函數(shù)去抵消噪聲影響,如何處理聯(lián)邦學(xué)習(xí)中低質(zhì)量、有系統(tǒng)誤差的本地訓(xùn)練集;目前在ICLR,ACM Sigmetrics等會(huì)議和IEEE TWC,IEEE TPDS等期刊上發(fā)表多篇一作論文。
直播信息
直播時(shí)間:2月23日10:00
直播地點(diǎn):智東西公開課小程序
加入討論群
加入討論群,除了可以免費(fèi)收看直播之外,還能認(rèn)識(shí)講師,與更多朋友一起學(xué)習(xí),并進(jìn)行深度討論。
添加小助手曼曼(zhidxclass006)即可申請(qǐng),備注“姓名-公司/學(xué)校/單位-職位/專業(yè)”的朋友將會(huì)優(yōu)先審核通過(guò)哦~