12月5-6日,2024中國(guó)生成式AI大會(huì)(上海站)「GenAICon 2024」將在上海中星鉑爾曼大酒店盛大舉辦。中國(guó)生成式AI大會(huì)已成功舉辦兩屆,迅速成長(zhǎng)為國(guó)內(nèi)生成式AI領(lǐng)域最具影響力的產(chǎn)業(yè)峰會(huì)之一。

此次也是中國(guó)生成式AI大會(huì)首次登陸上海舉辦,由智一科技旗下智能產(chǎn)業(yè)第一媒體智東西、AI與硬科技知識(shí)分享社區(qū)智猩猩共同發(fā)起。上海市人工智能行業(yè)協(xié)會(huì)為本次大會(huì)的指導(dǎo)單位。

大會(huì)上海站以“智能躍進(jìn) 創(chuàng)造無限”為主題,將設(shè)置“主會(huì)場(chǎng)峰會(huì)+分會(huì)場(chǎng)研討會(huì)+展覽區(qū)”。其中,主會(huì)場(chǎng)將進(jìn)行大模型峰會(huì)、AI Infra峰會(huì),分會(huì)場(chǎng)將組織端側(cè)生成式AI、AI視頻生成和具身智能三場(chǎng)技術(shù)研討會(huì)。主會(huì)場(chǎng)與分會(huì)場(chǎng)外則設(shè)有展覽區(qū)。

50+位嘉賓將在大會(huì)上帶來致辭、演講、報(bào)告和對(duì)話討論,以前瞻性視角為大家解構(gòu)和把脈生成式AI的技術(shù)產(chǎn)品創(chuàng)新、商業(yè)落地解法、未來趨勢(shì)走向與前沿研究焦點(diǎn)。

作為大會(huì)上海站的三場(chǎng)技術(shù)研討會(huì)之一,AI視頻生成技術(shù)研討會(huì)將在第二日上午的分會(huì)場(chǎng)進(jìn)行,由主題報(bào)告和圓桌Panel兩個(gè)環(huán)節(jié)組成。

Sora自年初問世以來,AI視頻生成領(lǐng)域風(fēng)起云涌,到年末來看,國(guó)內(nèi)外都已是群雄逐鹿的局面。盡管如此,依舊有不少重要問題有待解決。目前,從學(xué)術(shù)界到工業(yè)界,都在致力于解決AI視頻生成尚未解決的問題,以期為視頻生成大模型及應(yīng)用產(chǎn)品帶來更優(yōu)質(zhì)的體驗(yàn)。

一、上海站三場(chǎng)研討會(huì)之一,完整議程公布

目前,AI視頻生成技術(shù)研討會(huì)邀請(qǐng)到中存算董事長(zhǎng)陳巍,上海交通大學(xué)人工智能研究院助理教授晏軼超,新壹科技AI算法主任架構(gòu)師李璋,井英科技聯(lián)合創(chuàng)始人、CTO王健,曠視研究院高級(jí)研究員李華東5位青年學(xué)者和技術(shù)專家?guī)韴?bào)告,將圍繞視頻大模型架構(gòu)比較、三維數(shù)字人視頻生成、面向數(shù)字人生成的視頻垂直大模型、AI短劇技術(shù)突破、可控人物視頻生成展開講解。

視頻大模型(VLM)正與短視頻產(chǎn)業(yè)結(jié)合并迎來新爆發(fā)點(diǎn)。中存算董事長(zhǎng)陳巍將圍繞《視頻大模型架構(gòu)對(duì)比及長(zhǎng)序列模型加速》這一主題,從視頻生成大模型與世界模型的視角出發(fā),對(duì)比主流架構(gòu)(如NaViT、RADM),探討內(nèi)存墻和通信墻對(duì)視頻大模型GPGPU/TPU集群訓(xùn)練和部署的挑戰(zhàn),并分享算力芯片級(jí)訓(xùn)練部署的解決方案和系統(tǒng)經(jīng)驗(yàn)。

三維高斯、大模型等技術(shù)在過去一年快速發(fā)展,并與數(shù)字人技術(shù)進(jìn)行了廣泛結(jié)合。上海交通大學(xué)人工智能研究院助理教授晏軼超將帶來主題為《先驗(yàn)引導(dǎo)的三維數(shù)字人視頻生成》的報(bào)告,從數(shù)字人重建、生成與編輯等方向介紹三維數(shù)字人視頻生成的最新進(jìn)展,并探討三維數(shù)字人技術(shù)的發(fā)展趨勢(shì)。

在生成式AI技術(shù)的推動(dòng)下,智能數(shù)字人已成為內(nèi)容創(chuàng)作的重要方向。新壹科技AI算法主任架構(gòu)師李璋將圍繞《視頻垂直大模型在智能數(shù)字人生成中的應(yīng)用》,介紹從通用大模型到垂直大模型的技術(shù)演進(jìn),講解新壹視頻大模型在數(shù)字人視頻生成中的核心技術(shù)突破,并深入分析如何實(shí)現(xiàn)自然語言驅(qū)動(dòng)的動(dòng)作與表情生成,還將展示其在相關(guān)領(lǐng)域的典型應(yīng)用案例。

近期,井英科技通過視頻生成模型實(shí)現(xiàn)了100分鐘以上短視頻的制作,并成功實(shí)現(xiàn)了用戶付費(fèi)觀看的商業(yè)模式。公司聯(lián)合創(chuàng)始人、CTO王健將在此次論壇上將分享AI短劇從最初的不可行到現(xiàn)如今可行的關(guān)鍵技術(shù)突破,主題為《AI短劇拐點(diǎn)背后的技術(shù)突破》。

隨著短視頻、影視和游戲動(dòng)畫的快速發(fā)展,傳統(tǒng)的視頻制作方式因耗時(shí)耗力而逐漸顯現(xiàn)局限性。視頻生成大模型算法為高效生成高質(zhì)量視頻提供了新選擇,但現(xiàn)有算法的生成內(nèi)容可控性不足。曠視研究院高級(jí)研究員李華東將以《可控人物視頻生成》為主題,介紹支持混合模態(tài)控制的人像視頻生成算法MegActor 系列工作。

主題報(bào)告環(huán)節(jié)結(jié)束后的圓桌Panel,將由中存算董事長(zhǎng)陳巍,上海交通大學(xué)人工智能研究院助理教授晏軼超,井英科技聯(lián)合創(chuàng)始人、CTO王健,以及曠視研究院高級(jí)研究員李華東一起帶來。

視頻生成群雄逐鹿,哪些重要問題待解?這場(chǎng)GenAICon視頻生成研討會(huì)將深入探討

二、五位學(xué)者專家多維度講解AI視頻生成

1、中存算董事長(zhǎng) 陳巍

視頻生成群雄逐鹿,哪些重要問題待解?這場(chǎng)GenAICon視頻生成研討會(huì)將深入探討

陳巍博士,大模型+AI芯片專家,高級(jí)職稱,中存算等企業(yè)董事長(zhǎng)。國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)、中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)專業(yè)會(huì)員,多個(gè)國(guó)際人工智能期刊審稿人。主要研究方向?yàn)榇竽P图軜?gòu)、稀疏量化壓縮與部署加速,存算一體與3D Chiplet處理器,相關(guān)技術(shù)成果已被廣泛應(yīng)用于知名IDC和互聯(lián)網(wǎng)企業(yè)。

曾任領(lǐng)域知名人工智能(自然語言處理)企業(yè)首席科學(xué)家,中國(guó)科學(xué)院副主任(2012),多個(gè)國(guó)家科技重大專項(xiàng)課題負(fù)責(zé)人。中國(guó)與美國(guó)發(fā)明專利軟件著作權(quán)約70+項(xiàng)(約50+項(xiàng)發(fā)明專利已授權(quán))。著有《Sora大模型技術(shù)精要—原理、關(guān)鍵技術(shù)、模型架構(gòu)與未來趨勢(shì)》《GPT-4大模型硬核解讀》《ChatGPT大模型技術(shù)精要—發(fā)展歷程、原理、技術(shù)架構(gòu)詳解和產(chǎn)業(yè)未來》《智能網(wǎng)聯(lián)汽車:激光與視覺SLAM詳解》等。

報(bào)告主題:《視頻大模型架構(gòu)對(duì)比及長(zhǎng)序列模型加速》

內(nèi)容概要:隨著大模型技術(shù)的快速發(fā)展,視頻大模型(VLM)正與短視頻產(chǎn)業(yè)結(jié)合并迎來新的爆發(fā)機(jī)遇,逐漸成為互聯(lián)網(wǎng)應(yīng)用的熱點(diǎn)。

本次分享從視頻大模型與世界模型的角度,對(duì)比主流視頻生成大模型架構(gòu),探討視頻生成的關(guān)鍵技術(shù)(包括NaViT、RADM等),分析視頻生成類大模型的主要挑戰(zhàn)與發(fā)展趨勢(shì);探討內(nèi)存墻(Memory Wall)和通信墻對(duì)視頻大模型GPGPU/TPU集群訓(xùn)練和部署的挑戰(zhàn),并針對(duì)這類視頻長(zhǎng)序列模型的算力芯片級(jí)訓(xùn)練部署,結(jié)合具體項(xiàng)目給出軟硬結(jié)合的解決方案與系統(tǒng)經(jīng)驗(yàn)。

2、上海交通大學(xué)人工智能研究院助理教授 晏軼超

視頻生成群雄逐鹿,哪些重要問題待解?這場(chǎng)GenAICon視頻生成研討會(huì)將深入探討

晏軼超,上海交通大學(xué)人工智能研究院助理教授,博士生導(dǎo)師。獲上海交通大學(xué)電子工程系學(xué)士、博士學(xué)位,法國(guó)里昂中央理工學(xué)院碩士學(xué)位,曾擔(dān)任阿聯(lián)酋起源人工智能研究院研究科學(xué)家。主要研究方向?yàn)锳IGC及三維數(shù)字人技術(shù),發(fā)表包括TPAMI、CVPR、NeurIPS在內(nèi)的論文40余篇。先后主持國(guó)家自然科學(xué)基金青年項(xiàng)目、CCF-阿里巴巴青年科學(xué)家基金等項(xiàng)目8項(xiàng)。曾入選上海市海外高層次人才計(jì)劃,獲2020年度中國(guó)圖象圖形學(xué)學(xué)會(huì)優(yōu)秀博士論文獎(jiǎng)。

報(bào)告主題:《先驗(yàn)引導(dǎo)的三維數(shù)字人視頻生成》

內(nèi)容概要:“人”一直是視頻生成的核心對(duì)象,面對(duì)大規(guī)模視頻的生成需求,利用生成式人工智能技術(shù)產(chǎn)生高擬真,規(guī)?;奶摂M數(shù)字人正逐漸成為研究熱點(diǎn)。三維高斯、大模型等技術(shù)在過去一年快速發(fā)展,并與數(shù)字人技術(shù)進(jìn)行了廣泛結(jié)合,本次報(bào)告將從數(shù)字人重建、生成、編輯等方向介紹數(shù)字人視頻生成領(lǐng)域的最近進(jìn)展,對(duì)三維數(shù)字人技術(shù)的發(fā)展趨勢(shì)進(jìn)行探討。

3、新壹科技AI算法主任架構(gòu)師 李璋

視頻生成群雄逐鹿,哪些重要問題待解?這場(chǎng)GenAICon視頻生成研討會(huì)將深入探討

李璋,擁有中國(guó)科學(xué)院軟件工程碩士學(xué)位,是生成式人工智能領(lǐng)域的資深技術(shù)專家。在深度學(xué)習(xí)、算法優(yōu)化以及大模型研發(fā)方面具有深厚的理論基礎(chǔ)和豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。在新壹(北京)科技有限公司擔(dān)任AI算法主任架構(gòu)師,主導(dǎo)設(shè)計(jì)并研發(fā)了多個(gè)具有行業(yè)標(biāo)志性的AI項(xiàng)目。設(shè)計(jì)與研發(fā)了“新壹視頻大模型”——國(guó)內(nèi)首個(gè)專注于視頻生成的生成式AI大模型。該模型在視頻內(nèi)容生成、理解與優(yōu)化方面取得了突破性成果,為推動(dòng)國(guó)內(nèi)生成式AI技術(shù)在視頻領(lǐng)域的實(shí)際應(yīng)用提供了強(qiáng)有力的支撐。

報(bào)告主題:《視頻垂直大模型在智能數(shù)字人生成中的應(yīng)用》

內(nèi)容概要:在生成式AI技術(shù)蓬勃發(fā)展的背景下,智能數(shù)字人已成為內(nèi)容創(chuàng)作、虛擬助手和人機(jī)交互等領(lǐng)域的重要應(yīng)用之一。然而,傳統(tǒng)生成模型在高精度、多模態(tài)的智能數(shù)字人生成中仍面臨諸多挑戰(zhàn)。為此,垂直領(lǐng)域的大模型提供了一條全新路徑。

本次演講,首先會(huì)介紹從通用大模型到垂直大模型的演進(jìn),之后將著重講解新壹視頻大模型的整體架構(gòu)設(shè)計(jì)及其在數(shù)字人視頻生成與優(yōu)化中的核心技術(shù)突破;此外,還將對(duì)智能數(shù)字人生成的技術(shù)難點(diǎn),包括數(shù)字人生成中實(shí)現(xiàn)自然語言驅(qū)動(dòng)動(dòng)作與表情生成的關(guān)鍵技術(shù)等進(jìn)行深入分析,并分享視頻垂直大模型驅(qū)動(dòng)的智能數(shù)字人在相關(guān)領(lǐng)域的典型應(yīng)用案例。

4、井英科技聯(lián)合創(chuàng)始人、CTO 王健

視頻生成群雄逐鹿,哪些重要問題待解?這場(chǎng)GenAICon視頻生成研討會(huì)將深入探討

王健,井英科技聯(lián)合創(chuàng)始人,CTO,國(guó)內(nèi)視頻生成模型的首批創(chuàng)業(yè)者,從2020年起專注于視頻生成模型及相關(guān)應(yīng)用。在參與創(chuàng)立井英科技之前,擔(dān)任觸寶科技聯(lián)合創(chuàng)始人、CTO,是觸寶輸入法主創(chuàng),自然語言模型專家。

報(bào)告主題:《AI短劇拐點(diǎn)背后的技術(shù)突破》

內(nèi)容概要:自今年2月OpenAI發(fā)布Sora起,視頻生成大模型成為了熱點(diǎn)方向。但其具體落地的業(yè)務(wù)場(chǎng)景卻一直不明確。近期,井英科技通過視頻生成模型實(shí)現(xiàn)了100分鐘以上短視頻的制作,并成功實(shí)現(xiàn)了用戶付費(fèi)觀看的商業(yè)模式。本次分享將介紹AI短劇從最初的不可行到現(xiàn)如今可行的關(guān)鍵技術(shù)突破,并探討了除視頻生成大模型之外的其他關(guān)鍵技術(shù)進(jìn)展。

5、曠視研究院高級(jí)研究員 李華東

視頻生成群雄逐鹿,哪些重要問題待解?這場(chǎng)GenAICon視頻生成研討會(huì)將深入探討

李華東,曠視研究院高級(jí)研究員,碩士畢業(yè)于清華大學(xué)計(jì)算機(jī)系。研究方向?yàn)橛?jì)算機(jī)視覺,主要包括視頻生成與理解,深度估計(jì)等,已在ECCV,AAAI等人工智能頂級(jí)會(huì)議上發(fā)表多篇論文。

報(bào)告主題:《可控人物視頻生成》

內(nèi)容概要:短視頻、影視和游戲動(dòng)畫創(chuàng)作正在迅速發(fā)展。然而,傳統(tǒng)的視頻制作過程耗時(shí)耗力,通常需要大量的人工后期編輯。視頻生成大模型算法提供了一種低成本、高效的高質(zhì)量視頻內(nèi)容生成解決方案。但視頻生成算法生成的內(nèi)容可控性不足,限制了其實(shí)際應(yīng)用的有效性。因此,如何實(shí)現(xiàn)視頻生成內(nèi)容的可控性仍是一大關(guān)鍵挑戰(zhàn)。

在本次報(bào)告中,我將介紹 MegActor 系列工作,這是一種支持混合模態(tài)控制的人像視頻生成算法。該算法支持角色自定義(包括真實(shí)人物、二次元人物和游戲人物等),并能夠通過視頻、音頻和文本輸入實(shí)現(xiàn)單獨(dú)和混合控制。其功能涵蓋了控制角色說話、唱歌和生成表情動(dòng)畫等。MegActor 系列是社區(qū)內(nèi)的首個(gè)開源可控人物視頻生成大模型,將持續(xù)優(yōu)化以推動(dòng)技術(shù)的不斷發(fā)展。

三、中國(guó)生成式AI大會(huì)上海站日程

視頻生成群雄逐鹿,哪些重要問題待解?這場(chǎng)GenAICon視頻生成研討會(huì)將深入探討

四、報(bào)名進(jìn)入最后階段,立即搶票參加研討會(huì)

AI視頻生成技術(shù)研討會(huì)是2024中國(guó)生成式AI大會(huì)上海站的三場(chǎng)研討會(huì)之一,將在分會(huì)場(chǎng)第二日上午進(jìn)行。另外兩場(chǎng)研討會(huì)分別是端側(cè)生成式AI技術(shù)研討會(huì)、具身智能技術(shù)研討會(huì)。

目前大會(huì)上海站的報(bào)名已進(jìn)入最后階段。希望參加任意一場(chǎng)研討會(huì),或者全部三場(chǎng)研討會(huì)的朋友,可以選擇購買大會(huì)通票或貴賓票。

除了通票、貴賓票外,大會(huì)也開放免費(fèi)票申請(qǐng)(需經(jīng)主辦方審核通過)。不過,持有免費(fèi)票,無法參加分會(huì)場(chǎng)研討會(huì),僅可以參加兩場(chǎng)主會(huì)場(chǎng)峰會(huì):「大模型峰會(huì)」和「AI Infra峰會(huì)」。有需要的朋友可以申請(qǐng)。敲重點(diǎn)!免費(fèi)票不能參加AI視頻生成技術(shù)研討會(huì)哦~

余票有限,有意愿參會(huì)的朋友,可以掃描下方報(bào)名海報(bào)上的二維碼,添加小助手“泡泡”進(jìn)行咨詢或搶票。已添加過“泡泡”的老朋友,給“泡泡”私信,發(fā)送“GenAI24”即可。

視頻生成群雄逐鹿,哪些重要問題待解?這場(chǎng)GenAICon視頻生成研討會(huì)將深入探討