成人一区二区三区电影,91蜜臀人妻中文字幕在线视频

智東西（公眾號(hào)：zhidxcom）
作者｜陳駿達(dá)
編輯｜心緣

智東西2月18日?qǐng)?bào)道，今天，中國大模型“六小虎”之一的階躍星辰與吉利汽車集團(tuán)聯(lián)合宣布，將開源兩款Step系列多模態(tài)大模型，其中包括全球參數(shù)量最大的開源文生視頻大模型Step-Video-T2（300億）和Step-Audio語音交互模型。Step-Video-T2可以直接生成最長204幀、540P分辨率的視頻。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開

據(jù)悉，這也是階躍星辰首次開源其Step系列基座模型。即日起，用戶可以在躍問APP內(nèi)體驗(yàn)到這兩款模型。階躍星辰還公開了36頁的Step-Video-T2技術(shù)報(bào)告與25頁的Step-Audio技術(shù)報(bào)告。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開

階躍星辰宣布開源后，相關(guān)消息得到了開源平臺(tái)Hugging Face CEO的轉(zhuǎn)發(fā)支持，Hugging Face中國區(qū)負(fù)責(zé)人也在朋友圈發(fā)文推薦。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開

▲左側(cè)為Hugging Face CEO，右側(cè)為Hugging Face中國區(qū)負(fù)責(zé)人

網(wǎng)友在上手實(shí)測(cè)視頻模型后也給出了很高的評(píng)價(jià)，稱其能生成連貫而復(fù)雜的運(yùn)動(dòng)，這位網(wǎng)友還特別提到，階躍星辰采用的是MIT開源協(xié)議。這與DeepSeek的開源協(xié)議是一致的。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開

項(xiàng)目鏈接：https://huggingface.co/stepfun-ai

技術(shù)報(bào)告地址：https://arxiv.org/abs/2502.10248 （Step-Video-T2）

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf （Step-Audio）

一、還原復(fù)雜運(yùn)動(dòng)、理解運(yùn)鏡要求，視頻文字生成不再“鬼畫符”

Step-Video-T2采用了高壓縮比的Video-VAE模型，能夠在保持視頻重構(gòu)質(zhì)量的前提下，將視頻在空間維度壓縮16×16倍，時(shí)間維度壓縮8倍。這種高效的壓縮技術(shù)顯著提高了訓(xùn)練和生成效率，使得視頻生成過程更為迅速和高效。

此外，階躍星辰使用兩個(gè)雙語文本編碼器（Hunyuan-CLIP和Step-LLM）處理中英文提示，還優(yōu)化了使用了基于流匹配的DIT架構(gòu)和Video-DPO（視頻偏好優(yōu)化）算法，增強(qiáng)了模型處理復(fù)雜視頻數(shù)據(jù)的能力，并能夠進(jìn)一步提升視頻生成質(zhì)量。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開

訓(xùn)練過程中，他們構(gòu)建了一個(gè)包含20億視頻文本對(duì)和38億圖像文本對(duì)的大規(guī)模數(shù)據(jù)集。通過視頻分割、質(zhì)量評(píng)估、運(yùn)動(dòng)評(píng)估、字幕生成、概念平衡和文本對(duì)齊等步驟，將原始視頻轉(zhuǎn)換為適合模型預(yù)訓(xùn)練的高質(zhì)量視頻文本對(duì)。

為了支持大規(guī)模訓(xùn)練，階躍星辰開發(fā)了Step-Video-T2V訓(xùn)練系統(tǒng)，包括Step Emulator（訓(xùn)練仿真器）、StepRPC（高性能RPC框架）、StepTelemetry（監(jiān)控系統(tǒng)）和StepMind（分布式訓(xùn)練平臺(tái)）。這些工具優(yōu)化了模型的訓(xùn)練效率和資源利用率。

從生成效果來看，這款模型在復(fù)雜運(yùn)動(dòng)、美感人物、視覺想象力、基礎(chǔ)文字生成等方面展現(xiàn)出一定實(shí)力。

下圖中，Step-Video-T2V生成了一位美式橄欖球運(yùn)動(dòng)員奔跑的畫面。模型對(duì)提示詞中的畫面內(nèi)容、運(yùn)鏡要求都實(shí)現(xiàn)了較好的還原，體現(xiàn)出這款模型的語義理解和指令遵循能力。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開

▲提示詞：視頻中，一名強(qiáng)壯的美式橄欖球隊(duì)球員，身穿專業(yè)的橄欖球服，在球場上進(jìn)行練習(xí)。整個(gè)場景在一個(gè)開闊的球場上進(jìn)行，背景是其他球員和教練。視頻采用固定機(jī)位平移方式，捕捉了球員跑動(dòng)的每一個(gè)細(xì)節(jié)，清晰地展示了橄欖球運(yùn)動(dòng)的激烈和速度感。

不過，在生成跳水這種難度較高的畫面時(shí)，Step-Video-T2V的結(jié)果中存在一些肢體扭曲的現(xiàn)象。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開

文字方面，Step-Video-T2V生成的英文藝術(shù)字沒有出現(xiàn)幻覺，還在數(shù)字“2025”上融入了蛇年的元素。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開

對(duì)歷史上的知名人物，Step-Video-T2V也能準(zhǔn)確描繪，同時(shí)也兼顧了畫面的美感。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開

為了對(duì)開源視頻生成模型的性能進(jìn)行全面評(píng)測(cè)，階躍星辰還發(fā)布并開源了針對(duì)文生視頻質(zhì)量評(píng)測(cè)的新基準(zhǔn)數(shù)據(jù)集Step-Video-T2V-Eval，能評(píng)估運(yùn)動(dòng)、風(fēng)景、動(dòng)物、組合概念、超現(xiàn)實(shí)等11個(gè)內(nèi)容類別上的視頻生成質(zhì)量。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開

二、一款模型同時(shí)支持文本、語音生成，無需語音轉(zhuǎn)文字

階躍星辰還同時(shí)開源了Step-Audio語音交互模型，能夠根據(jù)不同的場景需求生成情緒、方言、語種、歌聲和個(gè)性化風(fēng)格的表達(dá)，與用戶自然地高質(zhì)量對(duì)話。

在Llama Question、Web Questions等5大主流公開測(cè)試集中，階躍Step-Audio模型性能均超過了行業(yè)內(nèi)同類型開源模型，位列第一。

DeepSeek迎最強(qiáng)隊(duì)友！國產(chǎn)大模型開源猛踩油門，全球第一，免費(fèi)可用，技術(shù)報(bào)告公開現(xiàn)有的大部分語音交互系統(tǒng)多采用級(jí)聯(lián)架構(gòu)（ASR-LLM-TTS），存在延遲累積、錯(cuò)誤傳播和優(yōu)化不一致等問題。Step-Audio則統(tǒng)一了語音和文本的理解與生成能力，支持語音識(shí)別、語義理解、對(duì)話、語音克隆、音頻編輯和語音合成。這一模型在躍問中可免費(fèi)使用。

在1300億參數(shù)的完整版Step-Audio基礎(chǔ)之上，階躍星辰訓(xùn)練并開源了高效的Step-Audio-TTS-3B模型，增強(qiáng)了指令跟隨能力。

此外，由于目前行業(yè)內(nèi)語音對(duì)話測(cè)試集相對(duì)缺失，階躍星辰自建并開源了多維度評(píng)估體系StepEval-Audio-360基準(zhǔn)測(cè)試，從角色扮演、邏輯推理、生成控制、文字游戲、創(chuàng)作能力、指令控制等9項(xiàng)基礎(chǔ)能力的維度對(duì)開源語音模型進(jìn)行全面測(cè)評(píng)。

結(jié)語：中國AI開源勢(shì)力再添猛將

階躍星辰創(chuàng)始人、CEO姜大昕博士稱，階躍星辰本次開源一方面是希望分享最新技術(shù)成果，給開源社區(qū)貢獻(xiàn)力量；另一方面，他們也認(rèn)為多模態(tài)模型是實(shí)現(xiàn)AGI的必經(jīng)之路，但目前尚處于早期階段，希望以開源的舉措與社區(qū)開發(fā)者集思廣益，共同拓展模型技術(shù)邊界，并推動(dòng)產(chǎn)業(yè)落地。

在DeepSeek的掀起的開源風(fēng)暴之后，越來越多的中國大模型選擇了將自家的專有模型免費(fèi)開放或是開源給廣大開發(fā)者群體，一股開源界的中國勢(shì)力已在悄然崛起。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、還原復(fù)雜運(yùn)動(dòng)、理解運(yùn)鏡要求，視頻文字生成不再“鬼畫符”

二、一款模型同時(shí)支持文本、語音生成，無需語音轉(zhuǎn)文字

結(jié)語：中國AI開源勢(shì)力再添猛將

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、還原復(fù)雜運(yùn)動(dòng)、理解運(yùn)鏡要求，視頻文字生成不再“鬼畫符”

二、一款模型同時(shí)支持文本、語音生成，無需語音轉(zhuǎn)文字

結(jié)語：中國AI開源勢(shì)力再添猛將

相關(guān)推薦

一、還原復(fù)雜運(yùn)動(dòng)、理解運(yùn)鏡要求，視頻文字生成不再“鬼畫符”

二、一款模型同時(shí)支持文本、語音生成，無需語音轉(zhuǎn)文字