近年來,生成式人工智能技術(shù)的迅猛發(fā)展使得高質(zhì)量的短時(shí)舞蹈生成成為可能。然而,實(shí)際應(yīng)用中的舞蹈表演通常遠(yuǎn)超這一時(shí)長,社交舞一般持續(xù)3至5分鐘,舞蹈劇甚至可能長達(dá)15分鐘以上。這使得現(xiàn)有的舞蹈生成方法在處理長序列舞蹈時(shí)面臨諸多挑戰(zhàn),特別是在生成高質(zhì)量的長序列舞蹈動(dòng)作方面,現(xiàn)有技術(shù)尚難滿足實(shí)際需求。因此,如何在保證動(dòng)作細(xì)節(jié)的同時(shí),捕捉舞蹈的全局結(jié)構(gòu)并生成流暢且富有表現(xiàn)力的長時(shí)序列舞蹈,成為一個(gè)待解決的核心問題。

針對(duì)上述問題,清華大學(xué)在讀博士李镕輝提出了Lodge,一個(gè)能夠在給定音樂條件下生成極長舞蹈序列的網(wǎng)絡(luò)。Lodge采用了兩階段粗到細(xì)的擴(kuò)散架構(gòu),并引入了一種具有顯著表現(xiàn)力的特征舞蹈原語,作為連接兩個(gè)擴(kuò)散模型的中間表示。這一設(shè)計(jì)有效平衡了全局編舞模式與局部動(dòng)作的質(zhì)量和表現(xiàn)力,使得極長的舞蹈序列生成得以并行化完成。論文已收錄于CVPR 2024!

音樂驅(qū)動(dòng)長序列舞蹈生成新突破!清華大學(xué)提出Lodge,解決短時(shí)難題 | 一作李镕輝博士主講預(yù)告

Lodge通過兩階段擴(kuò)散實(shí)現(xiàn)長舞蹈序列生成。全局?jǐn)U散階段利用Transformer網(wǎng)絡(luò)從音樂中提取節(jié)奏和結(jié)構(gòu)信息,生成稀疏的特征舞蹈原語(8幀關(guān)鍵動(dòng)作),捕捉音樂與舞蹈的全局編排模式。這些原語表達(dá)性強(qiáng)、語義豐富,為局部擴(kuò)散提供了關(guān)鍵指導(dǎo)。在局部擴(kuò)散階段,框架以舞蹈原語為引導(dǎo),并行生成細(xì)節(jié)豐富的短舞蹈片段,確保片段的連續(xù)性與表現(xiàn)力。其中,硬提示原語用于片段連接,軟提示原語提升動(dòng)作質(zhì)量與多樣性,最終生成兼具全局編排和局部細(xì)節(jié)的高質(zhì)量長舞蹈序列。

音樂驅(qū)動(dòng)長序列舞蹈生成新突破!清華大學(xué)提出Lodge,解決短時(shí)難題 | 一作李镕輝博士主講預(yù)告

與此同時(shí),Lodge在FineDance和AIST++數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),其中FineDance以152.3秒的平均每段舞蹈時(shí)長遠(yuǎn)高于AIST++的13.3秒,因此成為主要的訓(xùn)練和測(cè)試數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,Lodge在用戶研究和標(biāo)準(zhǔn)指標(biāo)的廣泛評(píng)估中取得了最先進(jìn)結(jié)果。生成樣本表明,Lodge能夠并行生成符合編舞規(guī)則的舞蹈,同時(shí)保持局部細(xì)節(jié)和物理真實(shí)感。由于Lodge的并行生成架構(gòu),即使生成更長的舞蹈序列,推理時(shí)間也不會(huì)顯著增大。

音樂驅(qū)動(dòng)長序列舞蹈生成新突破!清華大學(xué)提出Lodge,解決短時(shí)難題 | 一作李镕輝博士主講預(yù)告
音樂驅(qū)動(dòng)長序列舞蹈生成新突破!清華大學(xué)提出Lodge,解決短時(shí)難題 | 一作李镕輝博士主講預(yù)告

12月17日19點(diǎn),智猩猩邀請(qǐng)到論文一作、清華大學(xué)在讀博士李镕輝參與「智猩猩AI新青年講座」257講,主講《音樂驅(qū)動(dòng)的高質(zhì)量長序列舞蹈生成》。

講者

李镕輝

清華大學(xué)在讀博士生

師從李秀教授,目前清華大學(xué)博士三年級(jí)在讀。研究方向包括人體動(dòng)作建模與生成,AI編舞,數(shù)字人交互,AIGC等。在CVPR、ICCV、NeurIPS、AAAI等會(huì)議及期刊上發(fā)表多篇論文。個(gè)人主頁:https://li-ronghui.github.io/。

第257講

主 題
音樂驅(qū)動(dòng)的高質(zhì)量長序列舞蹈生成
提 綱
1.音樂驅(qū)動(dòng)舞蹈生成背景介紹
2.高質(zhì)量細(xì)粒度的全身舞蹈動(dòng)作生成
3.高效生成極長舞蹈序列
4.實(shí)驗(yàn)效果展示

直 播 信 息

直播時(shí)間:12月17日19:00

成果

論文標(biāo)題
《Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives》
論文鏈接
https://arxiv.org/pdf/2403.10518
項(xiàng)目網(wǎng)站
https://li-ronghui.github.io/lodge

報(bào)名方式

對(duì)本次講座感興趣朋友,可以掃描下方二維碼,添加小助手米婭進(jìn)行報(bào)名。已添加過米婭的老朋友,可以給米婭私信,發(fā)送“ANY257”即可報(bào)名。

我們會(huì)為審核通過的朋友推送直播鏈接。同時(shí),本次講座也組建了學(xué)習(xí)群,直播開始前會(huì)邀請(qǐng)審核通過的相關(guān)朋友入群交流。

音樂驅(qū)動(dòng)長序列舞蹈生成新突破!清華大學(xué)提出Lodge,解決短時(shí)難題 | 一作李镕輝博士主講預(yù)告