智東西(公眾號:zhidxcom)
作者|依婷
編輯|心緣
智東西11月13日報道,今日,在“From Paper to App”媒體溝通會上,AI技術(shù)公司彩云科技正式推出首款基于DCFormer架構(gòu)開發(fā)的通用大模型“云錦天章”,旗下AI RPG平臺“彩云小夢”也成為首款基于DCFormer架構(gòu)開發(fā)的AI產(chǎn)品。
與此同時,彩云科技CEO袁行遠(yuǎn)就AI大模型落地應(yīng)用難、大模型未來進(jìn)化之路等行業(yè)熱點話題與智東西等媒體進(jìn)行了交流。
袁行遠(yuǎn)說:“ChatGPT發(fā)布近兩年,為什么對世界的改變?nèi)匀挥邢??我稱之為‘智能沒有免費的午餐定理’——做同樣一件事,大模型需要消耗的算力要和大腦思考需要消耗的腦力一樣多,才能得到和大腦思考同樣的效果?!?/p>
一、顛覆Transformer架構(gòu),性能最高提升2倍
“假設(shè)ChatGPT-4每天響應(yīng)用戶約2億個請求,消耗超過50萬千瓦時的電力。假設(shè)全球網(wǎng)絡(luò)都使用ChatGPT作為訪問入口,ChatGPT每天消耗多少電力?另外按照這個速度發(fā)展下去,到2050年全球人工智能的耗電量會達(dá)到目前地球發(fā)電能力的多少倍?”
“到2050年,全球人工智能的耗電量可能會達(dá)到目前地球發(fā)電能力的8倍?!?/p>
上面是溝通會現(xiàn)場,袁行遠(yuǎn)向參會者展示的他與ChatGPT-o1之間的問答;改變AI能源困局也是袁行遠(yuǎn)主張改善大模型底層架構(gòu)的出發(fā)點。
“Scaling Law告訴我們,隨著算力的提升,模型更大、數(shù)據(jù)更多,模型效果會越來越好,但與之相應(yīng)的,能耗也會越來越高,在Scaling Law失效、AI實現(xiàn)之前,或許我們地球的能源就已經(jīng)無法支撐了?!痹羞h(yuǎn)稱,“沒有效率的提升,AI就是鏡花水月。”
今年年中,彩云科技帶來了顛覆Transformer架構(gòu)的研究成果。在國際機器學(xué)習(xí)領(lǐng)域的頂級會議ICML(國際機器學(xué)習(xí)大會)上,彩云科技發(fā)布論文《Improving Transformers with Dynamically Composable Multi-Head Attention》及論文核心成果DCFormer架構(gòu)。
據(jù)介紹,彩云科技團(tuán)隊構(gòu)建DCFormer框架,提出可動態(tài)組合的多頭注意力(DCMHA),替換Transformer核心組件多頭注意力模塊(MHA),解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據(jù)輸入動態(tài)組合,從根本上提升了模型的表達(dá)能力,由此實現(xiàn)了對Transformer架構(gòu)1.7—2倍的性能提升。
“我們的工作表明,Transformer架構(gòu)距離‘理想模型架構(gòu)’還有很大的提升空間,除了堆算力、堆數(shù)據(jù)的‘大力出奇跡’路線,模型架構(gòu)創(chuàng)新同樣大有可為?!痹羞h(yuǎn)補充道:“往小了說,在大模型領(lǐng)域,利用效率更高的模型架構(gòu),小公司也可以在與世界頂級AI企業(yè)的對抗中取得優(yōu)勢;往大了說,模型效率的提升,可以有效地降低AI升級迭代的成本,加速AI時代的到來?!?/p>
二、0提示詞按回車鍵AI續(xù)寫小說,最高輸出10000字
“世界最強的小說續(xù)寫通用模型。”溝通會上,袁行遠(yuǎn)帶著些中二語氣地展示了基于DCFormer架構(gòu)的通用大模型“云錦天章”。
袁行遠(yuǎn)介紹,云錦天章可以實現(xiàn)在虛構(gòu)世界觀的基礎(chǔ)上,賦予小說人物編程、數(shù)學(xué)等基礎(chǔ)能力,可以高速針對大量文字進(jìn)行擴寫、縮寫,針對文章風(fēng)格進(jìn)行大容量更換,同時兼具其他模型的問答、數(shù)學(xué)、編程等基礎(chǔ)能力。
根據(jù)現(xiàn)場演示,云錦天章目前可以在“寫小說”等類似提示詞的情境下,實現(xiàn)一輪提示詞,按回車鍵多次自動續(xù)寫內(nèi)容;同一輪對話的輸出字?jǐn)?shù)在8000至10000字左右。該功能將通過API形式向企業(yè)開放,并免費向C端用戶開放。
彩云科技旗下AI RPG平臺彩云小夢也迎來了基于DCFormer架構(gòu)的V3.5版本。與之前的版本相比,彩云小夢V3.5整體流暢性和連貫性提升了20%,支持前文長度由2000字提升至10000字,故事背景設(shè)定最長長度高達(dá)10000字。
這意味著,在故事創(chuàng)作或者AI對話中,AI能夠記住之前發(fā)生的事情以及故事中的細(xì)節(jié);創(chuàng)建的人物也會記得自己明確的目標(biāo),并且會根據(jù)劇情及時進(jìn)行反思修正,在做到自主創(chuàng)作的同時,發(fā)散性收斂,不會天馬行空,人物性格前后一致,故事邏輯性更強。
“深度對話,超長記憶,邏輯清晰。”袁行遠(yuǎn)總結(jié)彩云小夢V3.5的特征。他透露,目前彩云小夢的用戶以網(wǎng)文寫作者為主,有用戶同時更新10部小說,日更10萬字,月入5-6萬元。
袁行遠(yuǎn)介紹,公司接下來將繼續(xù)加大對DCFormer的研究和投入,“一方面有打破‘國外做技術(shù)層,國內(nèi)做應(yīng)用層’刻板印象的情懷所在,一方面也是為公司自有產(chǎn)品應(yīng)對市場競爭,實現(xiàn)快速迭代升級和能力領(lǐng)先的現(xiàn)實需要。”
結(jié)語:新架構(gòu)效果有待檢驗,AI細(xì)分賽道仍需開拓
對于當(dāng)下的AI大模型,谷歌的Transformer架構(gòu)仿佛成為既定法則,彩云科技從底層架構(gòu)對其進(jìn)行顛覆,在理論上對大模型生成效率取得了顯著提升,但能否產(chǎn)生行業(yè)影響還有待更多企業(yè)對DCFormer架構(gòu)進(jìn)行體驗。
與此同時,在AI陪伴領(lǐng)域挖掘AI寫網(wǎng)文、AI RPG等細(xì)分賽道,不失為中小型AI創(chuàng)業(yè)公司可以參考的思路。有需求才有市場,彩云小夢瞄準(zhǔn)了網(wǎng)文創(chuàng)作者,而更廣闊的AI應(yīng)用賽道還有待被發(fā)現(xiàn)。