智東西(公眾號(hào):zhidxcom)
作者 |? 陳駿達(dá)
編輯 |? 漠影

就在兩天前的除夕夜,一場科技感十足的春晚拉開帷幕,從臺(tái)前到幕后,中國科技的存在感讓人驚嘆不已,頻頻沖上熱搜。時(shí)隔七年再度攜手央視春晚的阿里,更是獻(xiàn)上了從云轉(zhuǎn)播到AI特效的科技大禮包。

甄子丹領(lǐng)銜的《筆走龍蛇》節(jié)目,運(yùn)用了巴黎奧運(yùn)同款的通義大模型AI技術(shù),呈現(xiàn)出電影般的“子彈時(shí)間”畫面,讓觀眾享受到“空中環(huán)繞、時(shí)空凝結(jié)”等創(chuàng)新觀看體驗(yàn)。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

春晚每年的保留節(jié)目《難忘今宵》也得到了通義萬相圖像編輯模型Wanx-ACE的支持,舞臺(tái)背景中變身為絢麗花燈的城市地標(biāo),便是由這款模型自動(dòng)生成的。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

2025年1月初,通義萬相模型迎來了重磅升級(jí),推出了全新的2.1版本,視頻生成與圖像生成能力提升明顯,今年春晚中不少驚艷的視覺效果,也來自這款模型。

升級(jí)后的通義萬相不僅能處理復(fù)雜人物運(yùn)動(dòng)、遵循真實(shí)物理規(guī)律、匹配復(fù)雜提示詞,還能生成影視質(zhì)感畫面,并首次實(shí)現(xiàn)了中文文字視頻生成功能。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

通義萬相2.1曾一度躍居視頻生成權(quán)威評(píng)測框架VBench榜首,成為國內(nèi)乃至全球視頻生成模型的領(lǐng)跑者。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

一、拿捏中國風(fēng),AI讓創(chuàng)意走進(jìn)現(xiàn)實(shí)

通義萬相2.1在本屆春晚中的參與可謂是全方位、全流程的,涵蓋從預(yù)告片到現(xiàn)場舞美等多個(gè)環(huán)節(jié)。

這款模型能準(zhǔn)確理解多樣的藝術(shù)風(fēng)格,為創(chuàng)意工作者提供了有力的創(chuàng)作工具,幫助他們將腦海中的想法變?yōu)楝F(xiàn)實(shí)。

對(duì)于中國風(fēng)的內(nèi)容,通義萬相可謂是手拿把掐。

在央視春晚預(yù)告片中,通義萬相文生圖讓中國非遺蘇繡煥發(fā)新生。萬相不僅成功捕捉了蘇繡的整體藝術(shù)風(fēng)格,還將細(xì)節(jié)還原到每一根絲線,而每一副畫面的風(fēng)格控制也較為穩(wěn)定,最終給這項(xiàng)千年傳統(tǒng)技藝帶來了別開生面的呈現(xiàn)形式。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

同款工具還在通義官網(wǎng)中上線,點(diǎn)擊網(wǎng)站上放的“非遺刺繡”互動(dòng)玩法,用戶就可以輸入文字,即刻生成一張刺繡圖。僅需等上幾秒鐘,便可生成一只栩栩如生的刺繡鳳凰。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

春晚舞臺(tái)上的諸多舞美效果也由通義萬相提供支持。

例如,央視春晚節(jié)目《方的言》舞臺(tái)背景的毛氈效果,便是由通義萬相的文生圖、圖生視頻等技術(shù)實(shí)現(xiàn)。圖中的高樓、古建被轉(zhuǎn)化成了溫暖、柔和、立體的毛氈畫,與歌曲的主旨相得益彰。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

在莫文蔚與毛不易合唱的《歲月里的花》節(jié)目中,阿里通義萬相利用圖像風(fēng)格化和首尾幀視頻生成技術(shù),生成了沉浸式的油畫風(fēng)舞美效果。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

二、央視春晚大放異彩,AI業(yè)內(nèi)炙手可熱

除了登上央視春晚,給全球華人提供精彩的視覺效果外。大年初一,在AI業(yè)內(nèi)1000余名創(chuàng)作者參與的AI春晚中,通義萬相為三分之一的節(jié)目提供了技術(shù)支持,升級(jí)后的模型能更好地理解和模擬物理世界,最終為觀眾呈現(xiàn)了極佳的觀影體驗(yàn)。

其中,取材自南宋畫家劉松年名畫《四景山水圖》的同名AI MV,一亮相便引來眾多網(wǎng)友的稱贊。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

通義萬相顯著改善了困擾視頻生成模型的幻覺問題,尤其是在涉及復(fù)雜肢體動(dòng)作的畫面中。這類畫面可謂是視頻生成模型的試金石,早期的視頻生成模型可能會(huì)生成各種“辣眼睛”的結(jié)果,AI圈知名的鬼畜畫面“威爾·史密斯吃意面”便是一個(gè)典型的失敗案例。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

為處理此類動(dòng)作,通義萬相團(tuán)隊(duì)自研了高效的VAE和DiT架構(gòu),增強(qiáng)了模型的時(shí)空上下文建模能力,讓復(fù)雜的肢體運(yùn)動(dòng)、大幅度動(dòng)作、鏡頭的移動(dòng)都能穩(wěn)定展現(xiàn)。

在AI MV《四景山水圖》中,通義萬相2.1完美地呈現(xiàn)了“擁爐對(duì)酒,折梅入瓶”的詩意畫面。畫面中人物的手型、持杯動(dòng)作都十分自然,溫酒的熱氣蒸騰也得到不錯(cuò)的還原。即便是處理折梅入瓶這樣細(xì)致入微的動(dòng)作時(shí),通義萬相2.1也沒有出現(xiàn)翻車的情況。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

在下方的畫面中,人物飲茶、放杯、合書、轉(zhuǎn)身的動(dòng)作一氣呵成,運(yùn)動(dòng)軌跡流暢,人物與杯子、書本的互動(dòng)也符合物理規(guī)律。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

《四景山水圖》中的水墨畫風(fēng)格鮮明,人物、花鳥傳神,還精準(zhǔn)把握到了留白這一中國傳統(tǒng)藝術(shù)中的獨(dú)特審美理念,給觀眾以無限的想象空間。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

在聯(lián)合網(wǎng)易云音樂、W出品的《穿過大山》中,通義萬相同樣在人物動(dòng)作上實(shí)現(xiàn)了較高的逼真度,外賣小哥整理頭盔的動(dòng)作,手指和周邊物體也沒有出現(xiàn)重疊、變形等問題。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

在涉及復(fù)雜運(yùn)鏡效果時(shí),通義萬相依舊穩(wěn)定地生成高質(zhì)量畫面。下圖中雖然鏡頭持續(xù)旋轉(zhuǎn),但人物的五官都沒有出現(xiàn)明顯的形變。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

三、通義萬相新年多番王炸,邁出視頻生成模型落地重要一步

除了亮相央視春晚、AI春晚的眾多視頻、圖像生成技術(shù)之外,通義萬相新年還有多項(xiàng)其他領(lǐng)域的重磅升級(jí)。

通義萬相首次實(shí)現(xiàn)了中文文字視頻生成功能,能在圖片與視頻中準(zhǔn)確呈現(xiàn)中文內(nèi)容,而不是像大多數(shù)模型那樣僅能生成大致的輪廓。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

此外,通義萬相還支持藝術(shù)字一鍵生成,文字還可以加上視頻特效選項(xiàng),如過渡、粒子效果、模擬等,視覺表現(xiàn)力超強(qiáng)。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

文生組圖能力這次也登陸通義萬相,DiT架構(gòu)增強(qiáng)了文生圖的上下文能力,可對(duì)多張圖像進(jìn)行拼接與聯(lián)合描述,輕松實(shí)現(xiàn)關(guān)聯(lián)圖像間的組合生成,解鎖了通義萬相生成電影分鏡、四格漫畫、情侶頭像等高度關(guān)聯(lián)畫面的能力。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

Prompt:一只小狗在抓蝴蝶,撞到了一棵大樹上,眼冒金星。

縱觀通義萬相的全面能力升級(jí)和多項(xiàng)跨界合作,未來我們或許有望看到這款模型走進(jìn)更多的應(yīng)用場景,憑借其迭代升級(jí)的視頻質(zhì)量、真實(shí)性,讓視頻生成由AI公司秀肌肉的“角斗場”真正轉(zhuǎn)變?yōu)槟墚a(chǎn)生實(shí)際效益的生產(chǎn)力工具。

例如,影視制作團(tuán)隊(duì)能用通義萬相快速生成多個(gè)備選方案,直觀展現(xiàn)視覺效果;也可以直接生成部分場景,極大地降低影視后期特效的成本。

電子商務(wù)場景里,增強(qiáng)的圖像與視頻生成能力或許能用于宣傳品生成、AI試衣等環(huán)節(jié),在提升消費(fèi)體驗(yàn)的同時(shí)還能降低成本。

而在藝術(shù)領(lǐng)域,通義萬相的風(fēng)格化能力和復(fù)雜提示詞的理解能力,能幫助用戶快速生成具有特定風(fēng)格的藝術(shù)作品,或是對(duì)自己原創(chuàng)的藝術(shù)作品進(jìn)行高效的再創(chuàng)造、再利用,節(jié)省部分重復(fù)性勞動(dòng),讓創(chuàng)作者能專注于創(chuàng)意本身。

此外,通義萬相還具備簡潔直觀的交互界面,這意味著即便是非專業(yè)人士也能享受到這項(xiàng)技術(shù)的便利,顯著降低創(chuàng)作門檻,使更多普通用戶能夠輕松創(chuàng)作高質(zhì)量的視頻內(nèi)容,滿足個(gè)性化需求。

例如,今年年初,通義萬相便聯(lián)合兩馬同春鬧元宵燈會(huì),上線萬物變花燈功能,用圖生圖、文生圖、文生視頻、圖生視頻等能力,將福州各地的古建一鍵變化為精美的花燈,吸引不少個(gè)人用戶的體驗(yàn)。

揭秘春晚AI黑科技!通義萬相新年甩出王炸,從全球榜首到春晚舞臺(tái)

結(jié)語:通義萬相躍居行業(yè)排頭兵,引領(lǐng)視頻生成賽道新趨勢

2023年春節(jié)期間,OpenAI憑借Sora在視頻生成領(lǐng)域引發(fā)熱潮,讓視頻生成成為各大AI廠商競相追逐的焦點(diǎn)。而今年春節(jié),阿里旗下的通義萬相在春晚這一全國矚目的舞臺(tái)上,展示了視頻生成技術(shù)令人矚目的顯著進(jìn)步。

通義萬相憑借對(duì)真實(shí)物理規(guī)律的深度理解、復(fù)雜影視效果的完美呈現(xiàn)以及穩(wěn)定清晰的輸出能力,幾乎滿足了人們對(duì)視頻生成模型理想形態(tài)的全部期待。這款模型在落地場景時(shí)的積極探索和應(yīng)用嘗試,更為視頻生成賽道帶來了廣闊的想象空間,有望引領(lǐng)該領(lǐng)域的新趨勢。