4月17日消息,在論文《Weight Poisoning Attacks on Pre-trained Models》中,來自CMU的研究者證明了構(gòu)造權(quán)重中毒攻擊是可能的,即預(yù)先訓(xùn)練的權(quán)重被注入漏洞,在微調(diào)后暴露后門,使攻擊者能夠通過注入任意關(guān)鍵字來操縱模型預(yù)測(cè)。研究證明,通過應(yīng)用正則化方法 和初始化過程,即使對(duì)數(shù)據(jù)集和微調(diào)過程的了解有限,這種攻擊也是可能的。論文在情感分類、毒性檢測(cè)、垃圾郵件檢測(cè)等方面的實(shí)驗(yàn)表明,該攻擊具有廣泛的適用性和嚴(yán)重的威脅。



10


