智東西(公眾號(hào):zhidxcom)
作者|陳駿達(dá)
編輯|心緣

智東西2月18日?qǐng)?bào)道,今天,中國大模型“六小虎”之一的階躍星辰與吉利汽車集團(tuán)聯(lián)合宣布,將開源兩款Step系列多模態(tài)大模型,其中包括全球參數(shù)量最大的開源文生視頻大模型Step-Video-T2(300億)和Step-Audio語音交互模型。Step-Video-T2可以直接生成最長204幀、540P分辨率的視頻。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開

據(jù)悉,這也是階躍星辰首次開源其Step系列基座模型。即日起,用戶可以在躍問APP內(nèi)體驗(yàn)到這兩款模型。階躍星辰還公開了36頁的Step-Video-T2技術(shù)報(bào)告與25頁的Step-Audio技術(shù)報(bào)告。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開

階躍星辰宣布開源后,相關(guān)消息得到了開源平臺(tái)Hugging Face CEO的轉(zhuǎn)發(fā)支持,Hugging Face中國區(qū)負(fù)責(zé)人也在朋友圈發(fā)文推薦。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開

▲左側(cè)為Hugging Face CEO,右側(cè)為Hugging Face中國區(qū)負(fù)責(zé)人

網(wǎng)友在上手實(shí)測(cè)視頻模型后也給出了很高的評(píng)價(jià),稱其能生成連貫而復(fù)雜的運(yùn)動(dòng),這位網(wǎng)友還特別提到,階躍星辰采用的是MIT開源協(xié)議。這與DeepSeek的開源協(xié)議是一致的。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開

項(xiàng)目鏈接:https://huggingface.co/stepfun-ai

技術(shù)報(bào)告地址:https://arxiv.org/abs/2502.10248 (Step-Video-T2)

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf (Step-Audio)

一、還原復(fù)雜運(yùn)動(dòng)、理解運(yùn)鏡要求,視頻文字生成不再“鬼畫符”

Step-Video-T2采用了高壓縮比的Video-VAE模型,能夠在保持視頻重構(gòu)質(zhì)量的前提下,將視頻在空間維度壓縮16×16倍,時(shí)間維度壓縮8倍。這種高效的壓縮技術(shù)顯著提高了訓(xùn)練和生成效率,使得視頻生成過程更為迅速和高效。

此外,階躍星辰使用兩個(gè)雙語文本編碼器(Hunyuan-CLIP和Step-LLM)處理中英文提示,還優(yōu)化了使用了基于流匹配的DIT架構(gòu)和Video-DPO(視頻偏好優(yōu)化)算法,增強(qiáng)了模型處理復(fù)雜視頻數(shù)據(jù)的能力,并能夠進(jìn)一步提升視頻生成質(zhì)量。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開

訓(xùn)練過程中,他們構(gòu)建了一個(gè)包含20億視頻文本對(duì)和38億圖像文本對(duì)的大規(guī)模數(shù)據(jù)集。通過視頻分割、質(zhì)量評(píng)估、運(yùn)動(dòng)評(píng)估、字幕生成、概念平衡和文本對(duì)齊等步驟,將原始視頻轉(zhuǎn)換為適合模型預(yù)訓(xùn)練的高質(zhì)量視頻文本對(duì)。

為了支持大規(guī)模訓(xùn)練,階躍星辰開發(fā)了Step-Video-T2V訓(xùn)練系統(tǒng),包括Step Emulator(訓(xùn)練仿真器)、StepRPC(高性能RPC框架)、StepTelemetry(監(jiān)控系統(tǒng))和StepMind(分布式訓(xùn)練平臺(tái))。這些工具優(yōu)化了模型的訓(xùn)練效率和資源利用率。

從生成效果來看,這款模型在復(fù)雜運(yùn)動(dòng)、美感人物、視覺想象力、基礎(chǔ)文字生成等方面展現(xiàn)出一定實(shí)力。

下圖中,Step-Video-T2V生成了一位美式橄欖球運(yùn)動(dòng)員奔跑的畫面。模型對(duì)提示詞中的畫面內(nèi)容、運(yùn)鏡要求都實(shí)現(xiàn)了較好的還原,體現(xiàn)出這款模型的語義理解和指令遵循能力。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開

▲提示詞:視頻中,一名強(qiáng)壯的美式橄欖球隊(duì)球員,身穿專業(yè)的橄欖球服,在球場上進(jìn)行練習(xí)。整個(gè)場景在一個(gè)開闊的球場上進(jìn)行,背景是其他球員和教練。視頻采用固定機(jī)位平移方式,捕捉了球員跑動(dòng)的每一個(gè)細(xì)節(jié),清晰地展示了橄欖球運(yùn)動(dòng)的激烈和速度感。

不過,在生成跳水這種難度較高的畫面時(shí),Step-Video-T2V的結(jié)果中存在一些肢體扭曲的現(xiàn)象。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開

文字方面,Step-Video-T2V生成的英文藝術(shù)字沒有出現(xiàn)幻覺,還在數(shù)字“2025”上融入了蛇年的元素。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開

對(duì)歷史上的知名人物,Step-Video-T2V也能準(zhǔn)確描繪,同時(shí)也兼顧了畫面的美感。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開

為了對(duì)開源視頻生成模型的性能進(jìn)行全面評(píng)測(cè),階躍星辰還發(fā)布并開源了針對(duì)文生視頻質(zhì)量評(píng)測(cè)的新基準(zhǔn)數(shù)據(jù)集Step-Video-T2V-Eval,能評(píng)估運(yùn)動(dòng)、風(fēng)景、動(dòng)物、組合概念、超現(xiàn)實(shí)等11個(gè)內(nèi)容類別上的視頻生成質(zhì)量。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開

二、一款模型同時(shí)支持文本、語音生成,無需語音轉(zhuǎn)文字

階躍星辰還同時(shí)開源了Step-Audio語音交互模型,能夠根據(jù)不同的場景需求生成情緒、方言、語種、歌聲和個(gè)性化風(fēng)格的表達(dá),與用戶自然地高質(zhì)量對(duì)話。

在Llama Question、Web Questions等5大主流公開測(cè)試集中,階躍Step-Audio模型性能均超過了行業(yè)內(nèi)同類型開源模型,位列第一。

DeepSeek迎最強(qiáng)隊(duì)友!國產(chǎn)大模型開源猛踩油門,全球第一,免費(fèi)可用,技術(shù)報(bào)告公開現(xiàn)有的大部分語音交互系統(tǒng)多采用級(jí)聯(lián)架構(gòu)(ASR-LLM-TTS),存在延遲累積、錯(cuò)誤傳播和優(yōu)化不一致等問題。Step-Audio則統(tǒng)一了語音和文本的理解與生成能力,支持語音識(shí)別、語義理解、對(duì)話、語音克隆、音頻編輯和語音合成。這一模型在躍問中可免費(fèi)使用。

在1300億參數(shù)的完整版Step-Audio基礎(chǔ)之上,階躍星辰訓(xùn)練并開源了高效的Step-Audio-TTS-3B模型,增強(qiáng)了指令跟隨能力。

此外,由于目前行業(yè)內(nèi)語音對(duì)話測(cè)試集相對(duì)缺失,階躍星辰自建并開源了多維度評(píng)估體系StepEval-Audio-360基準(zhǔn)測(cè)試,從角色扮演、邏輯推理、生成控制、文字游戲、創(chuàng)作能力、指令控制等9項(xiàng)基礎(chǔ)能力的維度對(duì)開源語音模型進(jìn)行全面測(cè)評(píng)。

結(jié)語:中國AI開源勢(shì)力再添猛將

階躍星辰創(chuàng)始人、CEO姜大昕博士稱,階躍星辰本次開源一方面是希望分享最新技術(shù)成果,給開源社區(qū)貢獻(xiàn)力量;另一方面,他們也認(rèn)為多模態(tài)模型是實(shí)現(xiàn)AGI的必經(jīng)之路,但目前尚處于早期階段,希望以開源的舉措與社區(qū)開發(fā)者集思廣益,共同拓展模型技術(shù)邊界,并推動(dòng)產(chǎn)業(yè)落地。

在DeepSeek的掀起的開源風(fēng)暴之后,越來越多的中國大模型選擇了將自家的專有模型免費(fèi)開放或是開源給廣大開發(fā)者群體,一股開源界的中國勢(shì)力已在悄然崛起。