智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 心緣

智東西2月2日報道,今日,階躍星辰Step 3.5 Flash開源并上線,該模型在Agent場景和數(shù)學任務上能力逼近閉源模型,能夠勝任復雜、長鏈條任務,是階躍星辰迄今最強的開源基座模型。

印奇掛帥后,階躍星辰最強開源模型登場!六大國產AI芯片已適配

▲Step 3.5 Flash開源頁面(來源:Hugging Face)

就在上周,階躍星辰宣布由曠視科技聯(lián)合創(chuàng)始人、千里科技董事長印奇正式出任董事長,并完成華勤、騰訊等參投的超50億元B+輪融資。這也是印奇履新后,階躍星辰在開源模型領域的首個大動作。

在智能密度對比圖中可以看出,Step 3.5 Flash以約200B的參數(shù)量,取得了81.0的分數(shù),在所有模型中智能密度最高。在單請求代碼類任務中,Step 3.5 Flash的推理速度最高可達到350TPS。

印奇掛帥后,階躍星辰最強開源模型登場!六大國產AI芯片已適配

▲智能密度對比圖

Step 3.5 Flash采用稀疏MoE架構,每個token僅激活約110億個參數(shù)(總計1960億參數(shù)),在保證模型能力的同時提升推理效率。

包括華為昇騰、沐曦股份、壁仞科技、燧原科技、天數(shù)智芯、阿里平頭哥在內的多家芯片廠商,已率先完成對Step 3.5 Flash的適配。

開源地址:

GitHub:

https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

Hugging Face:

https://huggingface.co/stepfun-ai/Step-3.5-Flash

一、性能全面逼近閉源大模型,最高推理速度達350TPS

在基準測試成績上,推理能力方面,Step 3.5 Flash在AIME 2025、IMOAnswerBench、HMMT 2025等數(shù)學競賽級任務中分別取得了97.3、88.8、96.2的分數(shù),均排名第二,Step 3.5 Flash開啟Parallel Thinking后的增強性能排名第一。

在編碼能力上,Step 3.5 Flash在LiveCodeBench-V6測試中得分86.4,排名第三,開啟Parallel Thinking后,其僅次于Gemini 3.0 Pro。

在智能Agent能力上,Step 3.5 Flash在BrowseComp測試中得分69.0,僅次于kimi K2.5;在xbench-DeepSearch測試得分54.0,僅次于GPT-5.2 xhigh。

印奇掛帥后,階躍星辰最強開源模型登場!六大國產AI芯片已適配

▲基準測試成績

該模型采用稀疏混合專家(MoE)架構,總參數(shù)量達1960億,單個token僅需激活約110億參數(shù)。

針對長文本處理場景,Step 3.5 Flash三路多Token預測(MTP-3)技術,Step 3.5 Flash在典型使用場景中實現(xiàn)了每秒100-300個token的生成吞吐量,在單請求代碼類任務中峰值可達350TPS。

在長上下文任務中,模型僅聚焦關鍵信息區(qū)域,降低冗余計算開銷,可支撐256K長度的長文本理解與生成。

據(jù)官方介紹,Step 3.5 Flash專為智能體任務構建,集成了可擴展的強化學習框架以實現(xiàn)持續(xù)的自我改進。

該模型通過采用3:1滑動窗口注意力(SWA)比例,即每層全注意力層配以三層SWA層。這種混合方法確保模型在處理海量數(shù)據(jù)或長代碼庫時性能穩(wěn)定,同時降低了標準長上下文模型通常所需的計算開銷

針對可訪問性優(yōu)化,Step 3.5 Flash可以在高端消費級硬件,如Mac Studio M4 Max、NVIDIA DGX Spark等上安全運行,確保數(shù)據(jù)私密性的同時不犧牲性能。

二、幾秒算出等差數(shù)列,還能一句話搭建可視化平臺

智東西第一時間上手體驗,首先數(shù)學方面,我們先考考Step 3.5 Flash一個把很多大模型都難倒了的問題:9.9和9.11誰大?Step 3.5 Flash幾乎立刻就給出了思考過程和正確答案,但是在回答中出現(xiàn)了將9.9誤輸出為99.9的錯誤。

印奇掛帥后,階躍星辰最強開源模型登場!六大國產AI芯片已適配

▲9.9和9.11比大小

那再復雜一些的數(shù)學題呢?階躍星辰官方給出案例,Step 3.5 Flash可以快速計算復雜數(shù)學題并輸出正確答案。

Prompt:請在不使用外部工具的情況下,依次計算并列出以下等差數(shù)列的和:從第1項開始,首項為100,公差為-3的前50項和;13+23+…+103的和;1!+2!+3!+4!+5!的和;2^10+3^5的和;√144+?125+?√16的和。

▲快速計算復雜數(shù)學題

在智能體編程方面,Step 3.5 Flash可以基于一段文字prompt自動編程輸出可視化平臺結果。

我們讓Step 3.5 Flash生成一個模擬海浪平臺,可以看到,其生成的可視化平臺可以調節(jié)海浪的頻率和形態(tài),還可以調整攝像頭的位置,生成效果基本符合要求。

▲生成模擬海浪平臺

官方給出了一個生成氣象情報儀表盤的例子:

Prompt:氣象情報儀表盤——一款受飛行駕駛艙啟發(fā)的三維地球可視化平臺,專為高密度數(shù)據(jù)環(huán)境設計。其搭載的定制WebGL 2.0引擎,可實時處理超過15000個動態(tài)節(jié)點及WebSocket遙測數(shù)據(jù)流。

生成結果顯示,Step 3.5 Flash展現(xiàn)出了構建低延遲數(shù)據(jù)管道與高性能地理空間可視化系統(tǒng)的能力。

▲生成氣象情報儀表盤

Step 3.5 Flash也原生支持多智能體架構,其中一個主智能體通過自主規(guī)劃和動態(tài)路由來協(xié)調復雜任務。

這個分層框架會派遣專門的“搜索”和“驗證”智能體,通過并行工具調用循環(huán)來處理信息檢索和事實核查。為確保精確性,一個“總結”智能體會將每個子智能體的執(zhí)行軌跡整合為結構化反饋,使主智能體能夠綜合生成最終連貫的響應。

印奇掛帥后,階躍星辰最強開源模型登場!六大國產AI芯片已適配

▲多智能體深度研究

Step 3.5 Flash還可以端云結合,簡化本地端執(zhí)行流程。例如,用戶提出對比Mac Mini M4在各平臺的價格。

Step 3.5 Flash作為“云端大腦”,將這一復雜需求拆解為針對淘寶、京東和拼多多的具體子任務。隨后Step 3.5 Flash匯總結果,識別出拼多多為最低價平臺,并提供購買指南。

這種云端規(guī)劃顯著降低了本地Step-GUI的執(zhí)行難度,使其在從各應用抓取實時數(shù)據(jù)時獲得更高成功率。

▲對比Mac Mini M4在各平臺的價格

結語:Agent能力成為新戰(zhàn)場

無論是階躍星辰Step 3.5 Flash的開源,還是此前月之暗面Kimi K2.5的發(fā)布,都指向了Agent的能力,階躍星辰官方還透露已經開啟Step 4模型的訓練,同樣是Agent基礎模型。

Agent要求模型具備深度的邏輯推理、任務拆解、規(guī)劃執(zhí)行和工具調用能力,對模型“大腦”的性能要求更高。

模型大腦的技術迭代加速了AI技術的實用化進程,或將催生更強大的生產力工具,并可能圍繞智能體形成新的競爭格局。