智東西(公眾號(hào):zhidxcom)
作者 | GenAICon 2024

2024中國生成式AI大會(huì)于4月18-19日在北京舉行,在大會(huì)第二天的主會(huì)場(chǎng)AIGC應(yīng)用專場(chǎng)上,行者AI創(chuàng)始人&CEO尹學(xué)淵以《生成式AI賦能智慧文娛及教育新生態(tài)》為題發(fā)表演講。

尹學(xué)淵談到內(nèi)容創(chuàng)作領(lǐng)域長期存在“不可能三角”的問題,即質(zhì)量、成本、效率三者之間永遠(yuǎn)無法達(dá)成平衡。而生成式AI的出現(xiàn)有望打破這一僵局,為教育、文旅行業(yè)開啟了交互式、沉浸式新體驗(yàn)。

行者AI在多模態(tài)領(lǐng)域進(jìn)行了廣泛探索,將美術(shù)大模型和音樂大模型用在實(shí)際落地的“最后一公里”階段。尹學(xué)淵強(qiáng)調(diào)了大模型與特定領(lǐng)域工作流程緊密結(jié)合的重要性,如果工作流程整合不當(dāng),一些看似功能強(qiáng)大的產(chǎn)品會(huì)在實(shí)際落地應(yīng)用中問題頻出。

工業(yè)化AI與消費(fèi)級(jí)娛樂AI的差異可以概括為三個(gè)關(guān)鍵特性:一致性、可控性、高精度。根據(jù)真實(shí)客戶反饋,行者AI的“行者丹爐”以及“圖刷刷”工具可將產(chǎn)品策劃、美術(shù)總監(jiān)、原畫師、3D組、運(yùn)營/美宣等工種的工作效率提升3-5倍

以下為尹學(xué)淵的演講實(shí)錄:

我的原定主題為“生成式AI在文娛和教育領(lǐng)域的探索”,但主辦方認(rèn)為這個(gè)標(biāo)題過于謙遜,于是為我加上了“賦能”二字。今天我的分享將主要以案例為主,向大家展示我們是如何利用生成式AI進(jìn)行創(chuàng)新實(shí)踐的。

首先,請(qǐng)?jiān)试S我做個(gè)簡(jiǎn)短的自我介紹。我自認(rèn)為是一名連續(xù)創(chuàng)業(yè)者。2013年,我聯(lián)合創(chuàng)立了游戲公司龍淵網(wǎng)絡(luò)。2016年,我們?cè)邶垳Y網(wǎng)絡(luò)內(nèi)部成立了AI實(shí)驗(yàn)室。到了2020年,我們將AI實(shí)驗(yàn)室的產(chǎn)品獨(dú)立出來,分拆成一家AI公司。

我們公司專注于AI的應(yīng)用層面,多年來一直在這個(gè)領(lǐng)域深耕。在生成式AI的概念尚未普及之前,我們就已經(jīng)開始研發(fā)AI音樂、AI美術(shù)AI智能體等產(chǎn)品,這些產(chǎn)品如今已在多個(gè)場(chǎng)景中得到應(yīng)用。

今天我將分享的內(nèi)容聚焦在文娛和教育這兩個(gè)行業(yè)。

一、生成式AI的關(guān)鍵作用,打破內(nèi)容創(chuàng)作“不可能三角”

我們所有機(jī)會(huì)的起源都可以追溯到這張圖所展示的原理。在過去,內(nèi)容創(chuàng)作領(lǐng)域存在著一個(gè)所謂的“不可能三角”。在這個(gè)三角中,質(zhì)量、成本和效率三者之間似乎永遠(yuǎn)無法達(dá)到平衡。

行者AI尹學(xué)淵:AI打破內(nèi)容創(chuàng)作“不可能三角”,推動(dòng)美術(shù)/音樂大模型落地“最后一公里”|GenAICon2024

通常情況下,如果追求高質(zhì)量的作品,那么成本必然高昂,且創(chuàng)作過程緩慢。如果你想要快速獲得成本低廉的成果,那么最終產(chǎn)出的內(nèi)容很可能在美觀度上不盡如人意。如果你既想要高質(zhì)量,又希望快速完成,那么唯一的辦法就是增加投入。

你會(huì)發(fā)現(xiàn),在生成式AI出現(xiàn)之前,這個(gè)“不可能三角”一直是內(nèi)容創(chuàng)作領(lǐng)域的一大難題。

生成式AI的主要作用就是打破這個(gè)“不可能三角”?,F(xiàn)在,我們可以在保持作品質(zhì)量的同時(shí),實(shí)現(xiàn)快速且成本效益高的創(chuàng)作。

在我看來,所有的機(jī)會(huì)可以用兩個(gè)關(guān)鍵詞來概括:多模態(tài)互動(dòng)式。特別是當(dāng)我們發(fā)現(xiàn)生成式AI技術(shù)解決了傳統(tǒng)內(nèi)容創(chuàng)作的“不可能三角”問題之后,許多之前只能想象而無法實(shí)現(xiàn)的事情,現(xiàn)在已經(jīng)有了實(shí)現(xiàn)的可能。

無論是游戲、大視聽、智慧教育、元宇宙,這些領(lǐng)域都可以分解為2D、3D、聲音、語言等不同的工程化組件。隨著生成式AI的革命性進(jìn)步,我們現(xiàn)在能夠在這些領(lǐng)域?qū)崿F(xiàn)多模態(tài)和互動(dòng)式的應(yīng)用。至于什么是互動(dòng)式,我將通過一些案例來具體展開說明。

這個(gè)機(jī)遇的核心在于,過去在內(nèi)容創(chuàng)作過程中,我們總是面臨著高成本低成功率的雙重挑戰(zhàn)。在這種背景下,商業(yè)壓力使得大家不得不將注意力集中在提高付費(fèi)率轉(zhuǎn)化率上,很難真正從人類真善美的角度出發(fā)去設(shè)計(jì)和創(chuàng)造內(nèi)容。無論是游戲還是影視劇作品,最終都不得不為了快速回收成本而犧牲某些價(jià)值。如果連成本都無法回收,那么這種商業(yè)模式就難以為繼。

傳統(tǒng)的教育、醫(yī)療、宣傳和文化傳播等領(lǐng)域,雖然非常值得投入,但高昂的成本限制了我們的行動(dòng)。而今天,AI技術(shù)的發(fā)展為我們帶來了新的機(jī)遇。這就是我想要強(qiáng)調(diào)的點(diǎn)。通過AI技術(shù),我們可以在保持高質(zhì)量內(nèi)容創(chuàng)作的同時(shí),降低成本,提高成功率,從而為這些領(lǐng)域帶來更廣闊的發(fā)展空間。

行者AI尹學(xué)淵:AI打破內(nèi)容創(chuàng)作“不可能三角”,推動(dòng)美術(shù)/音樂大模型落地“最后一公里”|GenAICon2024

二、美術(shù)、音樂大模型落地“最后一公里”,將真實(shí)用戶平均效率提升3~5倍

行者AI在多模態(tài)領(lǐng)域進(jìn)行了廣泛的探索和嘗試。我們的美術(shù)大模型解決了很多基礎(chǔ)性問題,也帶來了很多新的可能。

然而,在將這些技術(shù)應(yīng)用到實(shí)際工作中的最后一步,即“最后一公里”階段,我們發(fā)現(xiàn)所有大模型都必須與特定行業(yè)和領(lǐng)域的工作流程緊密結(jié)合。許多產(chǎn)品看似功能強(qiáng)大,但在實(shí)際應(yīng)用中卻問題頻出,難以落地,這是工作流程整合不當(dāng)所致。

從美術(shù)層面來說,我們通常會(huì)在每個(gè)環(huán)節(jié)使用不同的工具和算法來解決問題,這些環(huán)節(jié)包括美學(xué)設(shè)計(jì)、還原度、創(chuàng)意構(gòu)思、用戶界面設(shè)計(jì)、圖標(biāo)制作、原畫創(chuàng)作、3D建模以及特效和動(dòng)作設(shè)計(jì)等。

并不是說我們可以通過一個(gè)包羅萬象的大模型來解決所有問題,實(shí)際上這樣做是非常困難的。相反,我們的目標(biāo)是開發(fā)出各種不同的算法和工具,使美術(shù)從業(yè)者能夠走在AI技術(shù)的前沿,掌握并有效利用AI技術(shù),而不是僅僅為了做出一個(gè)大模型。

工業(yè)化AI與To C的娛樂AI之間存在顯著差異,這些差異可以概括為三個(gè)關(guān)鍵特性:一致性、可控性、高精度。這三個(gè)特性是工業(yè)化AI作為實(shí)用工具不可或缺的要素。

首先,一致性意味著AI生成的內(nèi)容保持風(fēng)格和特征的統(tǒng)一。在設(shè)計(jì)兩個(gè)角色張三和李四時(shí),他們應(yīng)該各自保持獨(dú)特的外觀,而不是隨機(jī)變成王五的樣子。在實(shí)際應(yīng)用中,許多產(chǎn)品依賴于提示詞來啟動(dòng)生成過程,一旦提示詞發(fā)生變化,生成的作品也會(huì)截然不同。

無論是文生圖還是文生音樂,包括最近非常流行的一些創(chuàng)作工具,比如音樂,用戶可能會(huì)發(fā)現(xiàn),如果想要修改生成內(nèi)容的一小部分,整個(gè)作品就會(huì)變成完全不同的另一首歌,美術(shù)可能因?yàn)樘崾驹~的變化,而變成一張全新的圖,不可深度編輯細(xì)節(jié),這在工業(yè)化應(yīng)用中是不可取的。

為了解決一致性的一問題,我們采用了“行者丹爐”這一概念。

大家調(diào)侃AI都在“煉丹”,我們干脆取一個(gè)名字叫“丹爐”。我們以這個(gè)比喻為基礎(chǔ),創(chuàng)造了“丹爐”這一工具,以確保生成內(nèi)容的一致性。通過這個(gè)工具,用戶可以迅速利用自己的素材、位置和數(shù)據(jù)標(biāo)簽來訓(xùn)練一個(gè)專屬于自己的AI模型,無論是畫風(fēng)模型、人物模型、決策模型還是場(chǎng)景模型,都能輕松實(shí)現(xiàn)。

行者AI尹學(xué)淵:AI打破內(nèi)容創(chuàng)作“不可能三角”,推動(dòng)美術(shù)/音樂大模型落地“最后一公里”|GenAICon2024

例如,如果你想訓(xùn)練一個(gè)生成你個(gè)人肖像的模型,只需將你的照片輸入系統(tǒng),訓(xùn)練出的模型就會(huì)專門生成你的肖像,無論是站立、坐著還是躺著的姿勢(shì);如果你想要模仿梵高的畫風(fēng),那么生成的作品就會(huì)具有梵高的風(fēng)格;如果你偏好二次元風(fēng)格,那么結(jié)果也會(huì)相應(yīng)地呈現(xiàn)二次元特色。通過這樣的工具,我們不僅確保了一致性,還提高了可控性,使得最終生成的效果能夠完全滿足用戶的具體要求。

在討論工業(yè)化AI時(shí),除了一致性和可控性之外,高精度也是一個(gè)關(guān)鍵特性。

比如一張16K的超高清的大圖,使用Midjourney嘗試將其縮小至4K分辨率的高清圖像可能會(huì)因?yàn)樾阅芟拗贫兊貌豢尚?。同樣,自行搭建的Stable Diffusion在處理這種高分辨率圖像時(shí)也可能因?yàn)轱@存不足而崩潰。 我們的算法可以做到16K,使其可以拿出去做美宣、原畫。

此外,生成這樣一張圖并非一次性完成,而是一個(gè)分階段、多模型疊加的過程。我們不是簡(jiǎn)單地通過輸入一個(gè)Prompt然后點(diǎn)擊鼠標(biāo)就生成一張圖,而是通過多個(gè)模型的疊加和分批次生成,最終合成為一張完整的圖像。這表明,生成式AI必須結(jié)合具體的應(yīng)用場(chǎng)景,并且打造與工作流程緊密結(jié)合的工具,而不是依賴一個(gè)通用大模型。

根據(jù)真實(shí)客戶反饋,使用這些工具的平均效率提升了3~5倍。

行者AI尹學(xué)淵:AI打破內(nèi)容創(chuàng)作“不可能三角”,推動(dòng)美術(shù)/音樂大模型落地“最后一公里”|GenAICon2024

這并不意味著某個(gè)行業(yè)被徹底革命或替代,而是使用這些工具的行業(yè)從業(yè)者的工作效率得到了顯著提升。即使是生成一張16K的大圖,也需要經(jīng)過數(shù)天的多個(gè)步驟來完成,而不是瞬間生成。

當(dāng)前,許多客戶反饋稱,他們的設(shè)計(jì)師正在轉(zhuǎn)變?yōu)锳I工程師,每天都在訓(xùn)練他們自己的模型。每個(gè)人都希望擁有自己獨(dú)特的畫風(fēng),每家公司也都不希望自家產(chǎn)品的設(shè)計(jì)看起來千篇一律或被指責(zé)為抄襲。在這種情況下,人類設(shè)計(jì)師可以專注于打磨自己的風(fēng)格,訓(xùn)練一個(gè)專屬于自己的模型,使得AI成為他們個(gè)性化創(chuàng)作的助手。

這大致是我們?cè)诿佬g(shù)領(lǐng)域的應(yīng)用邏輯。

在音樂領(lǐng)域,我們的工作重點(diǎn)可以概括為“交互式”這三個(gè)字。

交互式的核心在于可控性,我們能夠?qū)崿F(xiàn)非常精細(xì)的控制,如果某部分效果不盡如人意,可以立即進(jìn)行調(diào)整。

這種交互式的方法涵蓋了AI音樂制作的多個(gè)方面,包括作詞、作曲、伴奏制作以及人聲合成。我們都為此開發(fā)了相應(yīng)的工具,使得音樂創(chuàng)作過程不僅高效,而且可以細(xì)致調(diào)控。

以2021年世界大學(xué)生運(yùn)動(dòng)會(huì)的宣傳歌曲為例,這首歌曲的歌詞、旋律、伴奏以及演唱部分完全由AI完成。三年前的AI音樂制作水平,已經(jīng)能夠滿足常規(guī)的宣傳和商業(yè)用途的需求,并且支持精細(xì)的控制和調(diào)整。

此外,我們還開發(fā)了AI智能體,也就是游戲中的Agent。

三、生成式AI如何改造教育和文旅?實(shí)時(shí)控制音樂創(chuàng)作,提供多模態(tài)互動(dòng)體驗(yàn)

在討論AI安全的同時(shí),我們回到今天的主題,探討生成式AI在教育和文旅領(lǐng)域的應(yīng)用。

在教育領(lǐng)域,尤其是在音樂教育方面,傳統(tǒng)的教學(xué)方法往往側(cè)重于演奏和演唱這兩個(gè)考核指標(biāo)。學(xué)生通常需要演奏一首指定的曲目,相似度高則通過考核,否則需要回去繼續(xù)練習(xí)。

然而,隨著素質(zhì)教育和美育教育的推廣,國家的教學(xué)大綱開始強(qiáng)調(diào)音樂鑒賞和音樂創(chuàng)作兩部分內(nèi)容。音樂創(chuàng)作對(duì)于教學(xué)來說是一個(gè)挑戰(zhàn),但有了生成式AI的幫助,我們可以快速地將其融入教學(xué)過程中,并且可以與國學(xué)文化相結(jié)合。

例如,許多唐詩宋詞原本就是吟唱的,但現(xiàn)代人往往不知道如何唱。利用AI,我們可以生成相應(yīng)的曲調(diào),如果覺得生成的旋律不夠理想,AI還能夠提供細(xì)粒度的調(diào)整建議,從而創(chuàng)造出千人千面的旋律。孩子們可以跟著這些旋律學(xué)唱,這樣既能學(xué)習(xí)音樂,又能在不知不覺中背誦古詩。

行者AI尹學(xué)淵:AI打破內(nèi)容創(chuàng)作“不可能三角”,推動(dòng)美術(shù)/音樂大模型落地“最后一公里”|GenAICon2024

除了音樂創(chuàng)作,AI還可以用于教授音樂理論知識(shí),如旋律曲線的繪制,AI可以根據(jù)用戶繪制的線條生成相應(yīng)的旋律。

旋律曲線的繪制是音樂創(chuàng)作中的一個(gè)重要知識(shí)點(diǎn),通過AI的輔助,學(xué)生可以通過簡(jiǎn)單的點(diǎn)擊鼠標(biāo)來體驗(yàn)音樂創(chuàng)作的過程,并學(xué)習(xí)相關(guān)的音樂理論知識(shí),如同頭異尾、模進(jìn)等概念,同時(shí)還能進(jìn)行音階和節(jié)奏的訓(xùn)練。

在實(shí)際應(yīng)用場(chǎng)景中,一些學(xué)校已經(jīng)建立了美育教室,學(xué)生可以在這樣的教室中學(xué)習(xí)音樂創(chuàng)作和鑒賞,探索如何使音樂更加悅耳動(dòng)聽。

這個(gè)系統(tǒng)不僅多次被央視報(bào)道,而且在全國范圍得到了推廣,包括成都、上海、北京等地區(qū)的美術(shù)教育中也都有所應(yīng)用。通過這些創(chuàng)新的教學(xué)工具和方法,AI正在幫助教育者以更互動(dòng)和沉浸式的方式進(jìn)行教學(xué),提高學(xué)習(xí)效率,同時(shí)也為學(xué)生帶來了全新的學(xué)習(xí)體驗(yàn)。

什么叫交互式?交互式是指通過互動(dòng)的方式進(jìn)行溝通或教學(xué),從而獲得更個(gè)性化和動(dòng)態(tài)的體驗(yàn)。

在AI音樂創(chuàng)作的例子中,交互式不僅指用戶可以實(shí)時(shí)調(diào)整和控制音樂創(chuàng)作的各個(gè)方面,也意味著可以通過AI生成的內(nèi)容來教育和引導(dǎo)。例如,通過一個(gè)AI生成的小游戲來教育小朋友如何應(yīng)對(duì)校園霸凌。在這個(gè)游戲中,孩子們可以身臨其境地體驗(yàn)故事情節(jié),學(xué)習(xí)在不同情況下如何應(yīng)對(duì)和求助,這樣的交互式體驗(yàn)比傳統(tǒng)的講授方式更加生動(dòng)和有效。

與世界園藝博覽會(huì)的合作也是采用了類似的方法。通過AI技術(shù),用戶可以快速生成一個(gè)包含世園會(huì)中上萬種植物信息的互動(dòng)體驗(yàn),每個(gè)植物都有詳細(xì)的介紹,所有的圖像、角色、聲音和交互環(huán)節(jié)都是由AI生成的。

行者AI尹學(xué)淵:AI打破內(nèi)容創(chuàng)作“不可能三角”,推動(dòng)美術(shù)/音樂大模型落地“最后一公里”|GenAICon2024

此外,AI還被用于與傳統(tǒng)文化的結(jié)合。例如與中國皮影戲博物館的合作案例,參觀者可以在博物館中通過攝像頭拍攝自己的照片,AI將根據(jù)這些照片生成個(gè)人的皮影形象,并允許用戶在皮影戲的虛擬世界中進(jìn)行互動(dòng)。這種體驗(yàn)不僅增強(qiáng)了對(duì)傳統(tǒng)文化的了解,還通過AI的實(shí)時(shí)生成技術(shù),讓每次的體驗(yàn)都是獨(dú)一無二的。

行者AI尹學(xué)淵:AI打破內(nèi)容創(chuàng)作“不可能三角”,推動(dòng)美術(shù)/音樂大模型落地“最后一公里”|GenAICon2024

AI技術(shù)也被應(yīng)用于城市特色體驗(yàn)的生成,如在成都可以生成以雪山為遠(yuǎn)景、成都街景為近景的文化體驗(yàn),在廣州可以生成小蠻腰,在上海市可以生成東方明珠。這些體驗(yàn)都是可以交互的,而且隨著進(jìn)入博物館的人數(shù)增加,皮影戲中的角色也會(huì)相應(yīng)增加,從而改變了傳統(tǒng)的沉浸式體驗(yàn)?zāi)J健?/p>

傳統(tǒng)的沉浸式體驗(yàn)內(nèi)容更新周期長,游客體驗(yàn)后可能就不會(huì)再次回訪。但通過AI技術(shù),可以實(shí)現(xiàn)快速實(shí)時(shí)的內(nèi)容更新,使得每次訪問都有新的體驗(yàn)。AI可以生成365天都不重樣的沉浸式體驗(yàn),每天都有新的內(nèi)容和互動(dòng),極大地提升了重游價(jià)值和文化體驗(yàn)的深度。

AI技術(shù)與自貢宮燈會(huì)的結(jié)合,展示了AI在多語言交流和互動(dòng)娛樂方面的應(yīng)用。通過使用Agent和多樣的AIGC技術(shù),宮燈會(huì)的AI角色不僅能夠使用多國語言與觀眾進(jìn)行對(duì)話,還能驅(qū)動(dòng)3D模型與觀眾進(jìn)行互動(dòng)。這些AI角色可以根據(jù)不同的國家和地區(qū)使用相應(yīng)的語言進(jìn)行交流,不僅能進(jìn)行對(duì)話,還能唱歌和跳舞,為觀眾提供豐富的多模態(tài)體驗(yàn)。

例如,如果今天要感謝“智東西”和“智猩猩”的邀請(qǐng),只需將這兩個(gè)名字輸入AI系統(tǒng),AI形象便可以根據(jù)輸入進(jìn)行相應(yīng)的表演。

這些都是AI技術(shù)具體落地的應(yīng)用場(chǎng)景,體現(xiàn)了交互式多模態(tài)體驗(yàn)的潛力。

此外,AI技術(shù)在文旅場(chǎng)景中的應(yīng)用也非常廣泛。在許多文旅景點(diǎn),由于人多,找到一個(gè)好的拍照位置并不容易,而且晚上的燈會(huì)等場(chǎng)景雖然景色迷人,但拍攝人物照片時(shí)往往因?yàn)楣饩€問題導(dǎo)致面部暗淡。AI寫真打卡功能可以輕松解決這一問題,它不僅能夠美化照片背景,還能提升人物形象的亮度和清晰度。

AI技術(shù)還可以用于生成與植物相結(jié)合的抽象畫,這些畫作在現(xiàn)實(shí)中很難拍攝出來,但通過AI的生成能力,用戶可以創(chuàng)造出獨(dú)特的藝術(shù)效果。更進(jìn)一步,如果現(xiàn)場(chǎng)有打印機(jī),觀眾可以將這些AI生成的畫作打印出來并帶回家,極大地增強(qiáng)了參觀體驗(yàn)。

以上是尹學(xué)淵演講內(nèi)容的完整整理。