智東西(公眾號(hào):zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西11月5日?qǐng)?bào)道,今日,騰訊宣布開(kāi)源MoE大語(yǔ)言模型混元Large、騰訊混元3D生成模型Hunyuan3D-1.0正式開(kāi)源,并全面披露騰訊混元的全系列多尺寸模型、C端應(yīng)用、B端應(yīng)用版圖。

騰訊稱(chēng)混元Large是業(yè)界參數(shù)規(guī)模最大、效果最好的開(kāi)源MoE大語(yǔ)言模型,采用7T訓(xùn)練tokens,總參數(shù)量389B,激活參數(shù)量52B,上下文長(zhǎng)度高達(dá)256K,技術(shù)報(bào)告也同步發(fā)布。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。

與有相似激活參數(shù)量的業(yè)界開(kāi)源模型Llama3.1-405B、Mixtral-8x22B等相比,在多學(xué)科綜合評(píng)測(cè)集、中英文NLP任務(wù)、代碼、數(shù)學(xué)等9大維度,混元Large實(shí)現(xiàn)全面領(lǐng)先。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

混元Large包含高質(zhì)量合成數(shù)據(jù)、專(zhuān)家特定的學(xué)習(xí)率縮放、KV緩存壓縮、長(zhǎng)上下文處理能力、廣泛的基礎(chǔ)測(cè)試等主要技術(shù)創(chuàng)新,具體可參見(jiàn)技術(shù)報(bào)告。

騰訊混元3D生成大模型則是業(yè)界首個(gè)同時(shí)支持文字、圖像生成3D的開(kāi)源大模型,不僅在定量指標(biāo)上達(dá)到開(kāi)源模型的先進(jìn)水平,而且輕量版生成高質(zhì)量3D資產(chǎn)只需10秒,標(biāo)準(zhǔn)版也將文/圖生成3D資產(chǎn)的耗時(shí)縮至45秒內(nèi)。

兩個(gè)模型均屬騰訊自研,均已經(jīng)在騰訊業(yè)務(wù)場(chǎng)景中落地應(yīng)用,經(jīng)過(guò)實(shí)踐的檢驗(yàn),是面向?qū)嵱脠?chǎng)景的應(yīng)用級(jí)大模型。

新開(kāi)源模型支持企業(yè)及開(kāi)發(fā)者精調(diào)、部署等不同場(chǎng)景的使用需求,可在HuggingFace、Github等技術(shù)社區(qū)直接下載,免費(fèi)可商用。騰訊云TI平臺(tái)和高性能應(yīng)用服務(wù)HAI也開(kāi)放接入這兩個(gè)模型,為模型的精調(diào)、API調(diào)用及私有化部署提供一站式服務(wù)。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

混元Large Hugging Face地址:https://huggingface.co/tencent/Tencent-Hunyuan-Large

混元Large GitHub地址:https://github.com/Tencent/Tencent-Hunyuan-Large

混元3D生成模型GitHub地址:https://github.com/Tencent/Hunyuan3D-1

混元3D生成模型Hugging Face地址:https://huggingface.co/tencent/Hunyuan3D-1

一、最大開(kāi)源MoE大語(yǔ)言模型:六大關(guān)鍵技術(shù),將開(kāi)源企業(yè)卷軸數(shù)據(jù)集

MoE即混合專(zhuān)家模型,是目前國(guó)內(nèi)外主流的大模型結(jié)構(gòu)。據(jù)騰訊機(jī)器學(xué)習(xí)技術(shù)總監(jiān)、混元算法負(fù)責(zé)人康戰(zhàn)輝分享,相較密集模型,MoE模型在相同成本下效果更優(yōu),在相同規(guī)模下訓(xùn)練/推理成本更低,而且容量大,可訓(xùn)練更多數(shù)據(jù)。當(dāng)前MoE的挑戰(zhàn)有訓(xùn)練穩(wěn)定性差、專(zhuān)家負(fù)載不均衡等。

一些應(yīng)對(duì)方案包括:1)Scaling Law探索,設(shè)計(jì)基于中小模型簇的MoE Scaling Law實(shí)驗(yàn)機(jī)制,探索最優(yōu)的模型參數(shù)設(shè)置;2)路由機(jī)制,探索高效的專(zhuān)家路由策略;3)訓(xùn)練穩(wěn)定性,涉及特有的訓(xùn)練schedule,loss收斂更快更穩(wěn)定。

混元Large模型有六大關(guān)鍵技術(shù)

1、MoE Scaling Law探索:混元團(tuán)隊(duì)投入大量成本,全面探索了專(zhuān)家個(gè)數(shù)、激活參數(shù)量和訓(xùn)練tokens量的Scaling Law。在MoE Scaling Law的指導(dǎo)下,混元-Large在算力預(yù)算內(nèi)合理選擇模型最佳激活參數(shù)量以及訓(xùn)練token數(shù)。

2、路由和訓(xùn)練策略:1)共享專(zhuān)家路由策略,共享專(zhuān)家負(fù)責(zé)處理共享的通用能力和知識(shí),特殊專(zhuān)家負(fù)責(zé)處理任務(wù)相關(guān)的特殊能力;2)回收路由策略,有效激活每個(gè)專(zhuān)家的能力,使每個(gè)專(zhuān)家保持相對(duì)均衡的負(fù)載,充分利用訓(xùn)練數(shù)據(jù),保證模型的訓(xùn)練穩(wěn)定性和收斂速度;3)專(zhuān)家特定學(xué)習(xí)率適配策略,根據(jù)學(xué)習(xí)率和Batch size的縮放原則,為不同專(zhuān)家適配不同的最佳學(xué)習(xí)率,以提高模型訓(xùn)練效率。

3、高質(zhì)量的合成數(shù)據(jù):混元團(tuán)隊(duì)在天然文本語(yǔ)料庫(kù)的基礎(chǔ)上,利用混元內(nèi)部系列大語(yǔ)言模型構(gòu)建了覆蓋數(shù)十個(gè)類(lèi)目的高質(zhì)量、高多樣性、大量級(jí)的中英文合成數(shù)據(jù),顯著提升模型效果,其中數(shù)學(xué)和代碼效果提升超過(guò)10%。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

4、長(zhǎng)文能力優(yōu)化:針對(duì)長(zhǎng)文領(lǐng)域測(cè)評(píng)數(shù)據(jù)集缺乏、方法不夠客觀等問(wèn)題,騰訊混元Large基于公開(kāi)數(shù)據(jù),自研企鵝卷軸(PenguinScrolls)數(shù)據(jù)集,覆蓋各種深度閱讀理解、長(zhǎng)文推理任務(wù)。為了填補(bǔ)行業(yè)真實(shí)長(zhǎng)文評(píng)測(cè)集不足,騰訊混元即將開(kāi)源企鵝卷軸評(píng)測(cè)集。

騰訊混元Large模型專(zhuān)項(xiàng)提升的長(zhǎng)文能力已應(yīng)用到騰訊AI助手騰訊元寶上,最大支持256K上下文,相當(dāng)于一本《三國(guó)演義》的長(zhǎng)度,可一次性處理上傳最多10個(gè)文檔,并能一次性解析多個(gè)微信公眾號(hào)鏈接、網(wǎng)址,使騰訊元寶具備獨(dú)有的深度解析能力。

5、推理加速優(yōu)化:為了提高推理效率進(jìn)行KV Cache壓縮,使用Grouped-Query Attention (GQA)和Cross-Layer Attention (CLA)兩種KV cache壓縮策略,從head/layer兩個(gè)維度聯(lián)合壓縮KV Cache,并引入量化技術(shù),進(jìn)一步提升壓縮比,最終將模型的KV Cache壓縮為MHA的5%,大幅提升推理性能。

6、Post-train優(yōu)化:針對(duì)SFT難獲取高質(zhì)量數(shù)學(xué)、代碼等數(shù)據(jù)的問(wèn)題,構(gòu)建百萬(wàn)量級(jí)合成數(shù)據(jù),分門(mén)別類(lèi)提升數(shù)學(xué)、邏輯推理、代碼等能力;針對(duì)RLHF泛化性弱的問(wèn)題,在離線DPO的基礎(chǔ)上引入了二階段在線強(qiáng)化策略,實(shí)現(xiàn)整體效果處于業(yè)界頭部水平,文本創(chuàng)作、知識(shí)問(wèn)答、數(shù)理邏輯及代碼能力相較競(jìng)品有一定優(yōu)勢(shì)。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

二、業(yè)界首個(gè)同時(shí)支持文字、圖像生成的開(kāi)源3D生成大模型

無(wú)論是游戲創(chuàng)作,還是工業(yè)設(shè)計(jì)、建筑設(shè)計(jì)等專(zhuān)業(yè)建模,抑或是一些社交娛樂(lè)、電商、數(shù)字孿生、PCG/UGC創(chuàng)作領(lǐng)域,都會(huì)用到3D。

傳統(tǒng)3D資產(chǎn)制作存在建模門(mén)檻高、制作周期長(zhǎng)、制作成本高等痛點(diǎn),單模型制作平均要1~7天、成本耗費(fèi)百萬(wàn)到上萬(wàn)元。騰訊混元3D生成大模型則能將單個(gè)3D模型制作成本降低至不到1元。

騰訊混元3D生成大模型首批開(kāi)源模型包含輕量版和標(biāo)準(zhǔn)版,輕量版僅需10秒即可生成高質(zhì)量3D資產(chǎn),已在技術(shù)社區(qū)公開(kāi)發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,可供開(kāi)發(fā)者、研究者等各類(lèi)用戶免費(fèi)使用。

本次開(kāi)源的是1.0版本,后續(xù)還會(huì)有更完善、更先進(jìn)的模型陸續(xù)發(fā)布。

3D生成是一個(gè)較新的領(lǐng)域,今年學(xué)術(shù)界相關(guān)論文開(kāi)始涌現(xiàn),工業(yè)界3D模型的效果越來(lái)越好,但大多數(shù)是閉源。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

此次騰訊混元開(kāi)源的3D生成大模型Hunyuan3D-1.0 ,解決了現(xiàn)有的3D生成模型在生成速度、泛化能力、生成質(zhì)量上存在不足的問(wèn)題,可以幫助3D創(chuàng)作者和藝術(shù)家自動(dòng)化生產(chǎn)3D資產(chǎn)。

該模型可重建各類(lèi)尺度物體,大到建筑,小到工具花草。

Hunyuan3D-1.0采用DiT架構(gòu),與混元DiT生圖聯(lián)合,支持原生中文,支持風(fēng)格定制。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

其技術(shù)架構(gòu)引入多視圖擴(kuò)散,借助二維數(shù)據(jù)優(yōu)勢(shì)提升3D泛化性,改進(jìn)點(diǎn)包括:

1、持續(xù)擴(kuò)展數(shù)據(jù)規(guī)模、類(lèi)目、質(zhì)量、渲染方式,提升泛化性。

2、精細(xì)度提升:升級(jí)時(shí)空自適應(yīng)CFG引導(dǎo)方式,針對(duì)不同去噪步數(shù)、不同視角,設(shè)置不同權(quán)重,平衡可控性與多樣性,不犧牲生成質(zhì)量且提升生成清晰度。

3、輸入角度魯棒性:兼容任意輸入視角,通過(guò)學(xué)習(xí)到的俯仰角度矯正,提升多視圖準(zhǔn)確性與一致性。特征平面超高特征分辨率和引入任意視角的輸入圖進(jìn)一步提升了3D生成精度。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

經(jīng)過(guò)定性、定量多個(gè)維度的評(píng)估,Hunyuan3D-1.0兼顧快速和高質(zhì)量生成,已達(dá)到開(kāi)源模型的先進(jìn)水平。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

在兩個(gè)公開(kāi)的3D數(shù)據(jù)集GSO與OmniObject3D上,騰訊混元Hunyuan3D-1.0效果優(yōu)于主流開(kāi)源模型,整體能力屬于國(guó)際領(lǐng)先水平。

從定性角度評(píng)估,Hunyuan3D-1.0與行業(yè)領(lǐng)先的開(kāi)源模型的3D生成效果表現(xiàn)對(duì)比也顯示出較高水平,包括幾何細(xì)節(jié)、紋理細(xì)節(jié)、紋理-幾何一致性、3D合理性、指令遵循等評(píng)價(jià)維度。

從生成結(jié)果可視化來(lái)看,Hunyuan3D-1.0能夠更加真實(shí)地恢復(fù)出3D資產(chǎn)的幾何形狀和紋理細(xì)節(jié),泛化能力出色。其文生3D能力支持在45秒內(nèi)基于文本生成3D資產(chǎn),圖生3D能力支持在30秒內(nèi)基于文本生成3D資產(chǎn)。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

文生/圖生3D內(nèi)網(wǎng)接口已上線。

根據(jù)演示,混元3D能夠根據(jù)提示詞快速生成一個(gè)萬(wàn)圣節(jié)的南瓜燈,還能將其更改成樂(lè)高風(fēng)格,操作很方便。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

應(yīng)用方面,3D生成相關(guān)技術(shù)已經(jīng)開(kāi)始應(yīng)用于UGC 3D創(chuàng)作、商品素材合成、游戲3D資產(chǎn)生成等騰訊業(yè)務(wù)中。

此前,騰訊元寶App上線了“3D角色夢(mèng)工廠”玩法,支持個(gè)性化的UGC 3D人物生成。只需上傳一張照片,就能生成個(gè)人專(zhuān)屬3D角色,將3D個(gè)性定制建模費(fèi)用降到0.2元。這有助于玩具制作、3D打印等行業(yè)的技術(shù)革新。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

騰訊地圖基于騰訊混元3D大模型,發(fā)布了自定義3D導(dǎo)航車(chē)標(biāo)功能。用戶上傳一張圖,就能生成個(gè)性化的3D導(dǎo)航車(chē)標(biāo),比傳統(tǒng)3D車(chē)標(biāo)重建方案提速91%。

后續(xù),混元3D模型團(tuán)隊(duì)將持續(xù)探索多視圖生成、3D擴(kuò)散模型、自回歸生成等3D生成路線,最終目標(biāo)落地3D管線。

三、騰訊混元這一年:升級(jí)高性能MoE模型,發(fā)布原生大模型應(yīng)用

康戰(zhàn)輝回顧了騰訊混元大模型過(guò)去一年多的發(fā)展。他談道,騰訊混元不急于為了開(kāi)源而開(kāi)源,在內(nèi)部業(yè)務(wù)打磨好后再開(kāi)源,開(kāi)源模型與公司內(nèi)應(yīng)用模型同宗同源。

模型效果持續(xù)提升,建立在全棧自主可控的能力。騰訊混元Large模型的訓(xùn)練和推理均基于騰訊Angel機(jī)器學(xué)習(xí)平臺(tái)。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

其中,針對(duì)MoE模型通信效率問(wèn)題,Angel訓(xùn)練加速框架AngelPTM實(shí)現(xiàn)了多項(xiàng)技術(shù)優(yōu)化,性能是主流開(kāi)源框架DeepSpeed的2.6倍;針對(duì)模型推理加速,騰訊Angel機(jī)器學(xué)習(xí)平臺(tái)和騰訊云智能聯(lián)合研發(fā)AngelHCF-vLLM框架,在最大限度保障精度的條件下,可節(jié)省50%以上顯存,相比于業(yè)界主流的框架BF16吞吐提升1倍以上。

騰訊混元模型包括領(lǐng)域模型和通用模型,有1B、3B、7B、13B、70B等不同尺寸,覆蓋六大BG多場(chǎng)景業(yè)務(wù)。

騰訊混元大模型PaaS平臺(tái)開(kāi)放支持包含混元Large模型在內(nèi)的十余種混元API服務(wù)調(diào)用,可滿足文生文、圖生文、文生圖等不同模態(tài)以及角色扮演、FunctionCall、代碼等不同專(zhuān)項(xiàng)的模型需求。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

2024年年初,騰訊混元就宣布在國(guó)內(nèi)率先采用MoE架構(gòu)模型,總體性能比上一代密集模型提升50%。此后,騰訊混元推出基于MoE架構(gòu)的多模態(tài)理解大模型以及基礎(chǔ)模型”混元Turbo”,在性能、效果、速度等多個(gè)領(lǐng)域表現(xiàn)優(yōu)越,第三方測(cè)評(píng)居國(guó)內(nèi)大模型第一。

相比同構(gòu)MoE騰訊混元Pro,今年9月發(fā)布的異構(gòu)MoE混元Turbo將推理效率提升1倍以上,成本下降50%,解碼速度快20%。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

多模態(tài)理解大模型混元-V也在持續(xù)升級(jí),解鎖文字、圖像、3D、視頻等更多模態(tài),今年8月在SuperCLUE-V多模態(tài)理解評(píng)測(cè)基準(zhǔn)總榜中排名第一。

文生圖方面,今年5月,騰訊混元全面開(kāi)源業(yè)界首個(gè)中文原生DiT架構(gòu)文生圖大模型,評(píng)測(cè)結(jié)果國(guó)內(nèi)領(lǐng)先。還有今天宣布開(kāi)源的文/圖生3D模型,單張圖30秒可生成3D模型,效率與質(zhì)量均在業(yè)內(nèi)領(lǐng)先。

混元已全面接入騰訊業(yè)務(wù),并通過(guò)騰訊云向合作生態(tài)進(jìn)行賦能。騰訊內(nèi)部有超過(guò)700個(gè)業(yè)務(wù)接入混元。

面向C端,微信讀書(shū)的AI大綱、AI問(wèn)書(shū)功能,騰訊元寶的AI搜索、AI閱讀、AI角色對(duì)話等功能,都接入了騰訊混元的能力。

混元原生大模型應(yīng)用騰訊元寶的AI搜索會(huì)提供可溯源引文,引文數(shù)量多、時(shí)間新、信源優(yōu)質(zhì);通過(guò)延伸閱讀,來(lái)滿足用戶對(duì)周邊信息的獲取需求,還會(huì)列關(guān)聯(lián)問(wèn)題,以引導(dǎo)追問(wèn)學(xué)習(xí)。

其AI閱讀功能具有強(qiáng)大的文檔處理能力,可處理多格式、多文件、長(zhǎng)記憶文檔;AI精讀支持圖文輸出、知識(shí)圖譜總結(jié)、延伸閱讀推薦,有助于提升學(xué)習(xí)深度和廣度。

此外,騰訊元寶提供了角色對(duì)話、劇情互動(dòng)、劇照cos等更多玩法。例如智能體應(yīng)用AI角色對(duì)話成為了騰訊視頻劇集宣發(fā)的新亮點(diǎn),長(zhǎng)相思AI角色對(duì)話的總熱度達(dá)到近2億,“相柳”單角色熱度打到1.7億,人均對(duì)話prompt數(shù)為167.3,衍生角色“毛球”的對(duì)話率超過(guò)90%。

面向B端,騰訊旗下SaaS協(xié)作產(chǎn)品全面接入混元,包括騰訊文檔、騰訊會(huì)議、企業(yè)微信等。

騰訊開(kāi)源最大MoE大語(yǔ)言模型!3D大模型同時(shí)支持文/圖生成,曬混元模型及應(yīng)用全家桶

混元大模型還幫助騰訊廣告多場(chǎng)景提效,比如生成創(chuàng)意爆量素材、輔助內(nèi)容商業(yè)價(jià)值理解、廣告推薦結(jié)果生成。

結(jié)語(yǔ):堅(jiān)定擁抱開(kāi)源,預(yù)告多款后續(xù)模型

隨著自研大模型技術(shù)強(qiáng)大的和應(yīng)用實(shí)踐經(jīng)驗(yàn)的豐富,開(kāi)源已成為騰訊混元大模型的一個(gè)戰(zhàn)略選擇。

據(jù)康戰(zhàn)輝分享,混元未來(lái)的模型開(kāi)源戰(zhàn)略是“擁抱開(kāi)源,自主可控,堅(jiān)持協(xié)同”。

騰訊在今年5月開(kāi)源業(yè)界首個(gè)原生中文DiT圖生文大模型混元DiT,今日又開(kāi)源混元Large大語(yǔ)言模型,并將陸續(xù)開(kāi)源混元AnglePTM和AngelHCF等大模型工程框架,未來(lái)還將陸續(xù)推出混元-M、混元S等模型。

全面開(kāi)源的混元3D生成模型,面向企業(yè)、個(gè)人開(kāi)發(fā)者提供商用品質(zhì)的3D開(kāi)源模型,可直接部署,降低3D資產(chǎn)的生產(chǎn)周期、成本;面向科研學(xué)者提供更大的3D基礎(chǔ)模型,以加速新方法研究探索。未來(lái)混元3D原生大模型、混元3D自回歸大模型等更多開(kāi)源模型將陸續(xù)上線。

騰訊混元計(jì)劃后續(xù)推出更多模態(tài)、更多尺寸的開(kāi)源模型,將更多經(jīng)過(guò)騰訊業(yè)務(wù)場(chǎng)景打磨和檢驗(yàn)的模型開(kāi)源,促進(jìn)大模型技術(shù)進(jìn)步和行業(yè)生態(tài)繁榮。