智東西(公眾號(hào):zhidxcom)
作者 | 陳駿達(dá)
編輯 | 心緣

智東西10月11日報(bào)道,昨晚,快手Kwaipilot團(tuán)隊(duì)開源了最新一代編程模型KAT-Dev-72B-Exp,這一模型在軟件開發(fā)能力評(píng)測基準(zhǔn)SWE-Bench Verified上取得74.6%的成績,超越Qwen3-Coder、DeepSeek-V3.1、Kimi-K2和GLM-4.6等多款模型,成為開源模型之最。

拿下開源編程模型第一,竟然是快手

KAT-Dev-72B-Exp是KAT-Coder模型強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)版本,由快手自研的SeamlessFlow強(qiáng)化學(xué)習(xí)框架提供技術(shù)支撐。該框架實(shí)現(xiàn)了訓(xùn)練邏輯與智能體的完全解耦,能夠靈活支持多智能體和在線強(qiáng)化學(xué)習(xí)等復(fù)雜場景。

針對(duì)復(fù)雜Agent場景,Kwaipilot團(tuán)隊(duì)引入了Trie Packing機(jī)制,并對(duì)訓(xùn)練引擎進(jìn)行了重構(gòu)優(yōu)化,使模型能夠高效地在共享前綴軌跡上開展訓(xùn)練,還通過難度感知的策略優(yōu)化,實(shí)現(xiàn)了探索與利用的平衡。

值得注意的是,快手發(fā)布KAT-Dev-72B-Exp模型開源消息的賬號(hào)歸屬為溪流湖科技,企查查信息顯示這是一家快手的關(guān)聯(lián)企業(yè)。在溪流湖科技的官網(wǎng)上,還能看到一款名為“CodeFlicker”AI IDE產(chǎn)品已經(jīng)進(jìn)入預(yù)約階段,其產(chǎn)品界面與Cursor類似。

拿下開源編程模型第一,竟然是快手

目前,KAT-Dev-72B-Exp已被上傳至開源平臺(tái)Hugging Face,用戶也可在溪流湖科技的官網(wǎng)限時(shí)領(lǐng)取KAT-Coder的2000萬個(gè)專屬token。

拿下開源編程模型第一,竟然是快手

▲KAT-Dev-72B-Exp開源項(xiàng)目

Hugging Face項(xiàng)目地址:

https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp

KAT-Coder免費(fèi)體驗(yàn)鏈接:

https://www.streamlake.ai/product/kat-coder

一、雙管齊下給強(qiáng)化學(xué)習(xí)提效,整體訓(xùn)練速度平均提升150%

在KAT-Dev-72B-Exp的強(qiáng)化學(xué)習(xí)訓(xùn)練中,Kwaipilot推出了一套融合樹形軌跡訓(xùn)練優(yōu)化(Trie Packing)與熵感知優(yōu)勢縮放的新方法,顯著提升了強(qiáng)化學(xué)習(xí)訓(xùn)練的吞吐量與策略探索能力。

在傳統(tǒng)的大模型Agent訓(xùn)練中,由于模型在執(zhí)行任務(wù)時(shí)會(huì)產(chǎn)生包含分支與回溯的樹狀token軌跡,業(yè)界普遍采用拆分為多條線性序列的簡化訓(xùn)練方案。然而,這種方法忽略了軌跡之間的共享結(jié)構(gòu),容易造成計(jì)算冗余。

Kwaipilot的工程團(tuán)隊(duì)重新設(shè)計(jì)了訓(xùn)練引擎與注意力內(nèi)核(attention kernel),并通過樹形梯度修復(fù)權(quán)重機(jī)制,將共享前綴的正反向計(jì)算合并,實(shí)現(xiàn)了在樹形軌跡上的高效訓(xùn)練。

實(shí)測數(shù)據(jù)顯示,這一技術(shù)方案令整體訓(xùn)練速度平均提升至原來的2.5倍,大幅提高了強(qiáng)化學(xué)習(xí)訓(xùn)練階段的吞吐效率。

強(qiáng)化學(xué)習(xí)的優(yōu)化核心在于策略梯度,而優(yōu)勢函數(shù)(Advantage Function)直接決定了每個(gè)樣本在參數(shù)更新中的影響力。傳統(tǒng)的GRPO算法僅基于組內(nèi)收益計(jì)算優(yōu)勢值,忽視了策略的探索性,容易使模型過早收斂到局部最優(yōu)。

針對(duì)這一問題,Kwaipilot團(tuán)隊(duì)提出了基于熵的優(yōu)勢縮放方法。該方法在每個(gè)rollout樣本中引入策略熵(Policy Entropy)作為權(quán)重調(diào)節(jié)因子,對(duì)高熵樣本(探索性強(qiáng))放大優(yōu)勢,對(duì)低熵樣本(確定性強(qiáng))適度抑制。

通過這一機(jī)制,模型在保持收斂效率的同時(shí),顯著增強(qiáng)了探索能力,實(shí)現(xiàn)了更優(yōu)的探索—利用平衡。

二、自研工業(yè)級(jí)強(qiáng)化學(xué)習(xí)框架,吞吐量提升超50%

在訓(xùn)練KAT-Dev-72B-Exp的過程中,快手還使用了自研的SeamlessFlow工業(yè)級(jí)強(qiáng)化學(xué)習(xí)框架,以支持復(fù)雜的強(qiáng)化學(xué)習(xí)場景。

快手Kwaipilot團(tuán)隊(duì)曾于今年8月發(fā)布SeamlessFlow的技術(shù)報(bào)告。具體來看,SeamlessFlow共有兩大創(chuàng)新點(diǎn)。

首先,SeamlessFlow引入了獨(dú)立的數(shù)據(jù)平面層,徹底解耦了RL訓(xùn)練和智能體實(shí)現(xiàn)。數(shù)據(jù)平面的核心是軌跡管理器(Trajectory Manager)。

軌跡管理器在智能體與語言模型服務(wù)之間靜默記錄所有交互細(xì)節(jié),包括輸入輸出及多輪對(duì)話的分支結(jié)構(gòu),從而構(gòu)建完整的軌跡樹。這一設(shè)計(jì)不僅避免重復(fù)計(jì)算、提升存儲(chǔ)效率,還支持精確的在線與離線策略區(qū)分。

SeamlessFlow的另一組件是推理管理器(Rollout Manager),它實(shí)現(xiàn)了對(duì)模型更新與資源調(diào)度的無感控制,使得智能體無需適配訓(xùn)練框架即可實(shí)現(xiàn)任務(wù)的無縫暫停與恢復(fù),大幅提升了系統(tǒng)靈活性與訓(xùn)練效率。

拿下開源編程模型第一,竟然是快手

▲數(shù)據(jù)平面的序列圖(圖源:Kwaipilot)

SeamlessFlow的另一關(guān)鍵創(chuàng)新是標(biāo)簽驅(qū)動(dòng)的資源調(diào)度范式,通過為計(jì)算資源賦予如“訓(xùn)練”或“推理”等能力標(biāo)簽,統(tǒng)一了集中式(Colocated)與分布式架構(gòu)(Disaggregated)的資源管理模式。

該系統(tǒng)支持時(shí)空復(fù)用機(jī)制,使得具備多標(biāo)簽的機(jī)器可根據(jù)任務(wù)需求動(dòng)態(tài)切換角色,從而將GPU閑置率降至5%以下,徹底緩解了傳統(tǒng)架構(gòu)中的流水線空閑問題。

在實(shí)際工業(yè)場景的驗(yàn)證中,SeamlessFlow在多項(xiàng)任務(wù)中實(shí)現(xiàn)了顯著的吞吐量提升與擴(kuò)展性優(yōu)勢。

使用32張H800 GPU進(jìn)行的對(duì)比測試顯示,相比主流的VERL框架,SeamlessFlow在單輪RL任務(wù)(8k token上下文)中實(shí)現(xiàn)了100%的吞吐量提升,整體訓(xùn)練時(shí)間減少62%。這個(gè)提升主要來自于數(shù)據(jù)平面的流式設(shè)計(jì)和計(jì)算資源空閑期的消除。

拿下開源編程模型第一,竟然是快手

在更復(fù)雜的智能體RL場景中,SeamlessFlow的優(yōu)勢更加明顯。在最大生成長度64K token的代碼任務(wù)中,SeamlessFlow的吞吐量提升平均提升至原來的1.55倍。

拿下開源編程模型第一,竟然是快手

特別值得注意的是,當(dāng)集群規(guī)模從32塊GPU擴(kuò)展到64塊時(shí),SeamlessFlow的性能優(yōu)勢進(jìn)一步擴(kuò)大,展現(xiàn)出了可擴(kuò)展性。

結(jié)語:快手持續(xù)加碼開源模型

在快手今年的多場財(cái)報(bào)電話會(huì)議中,AI已經(jīng)成為了繞不開的話題。過去數(shù)月內(nèi),除了不斷更新視頻生成模型可靈之外,快手還開源了多款覆蓋推理、編程、Embedding等領(lǐng)域的模型,并打造了能根據(jù)問題難度自動(dòng)切換思考模式的KAT-V1自動(dòng)思考(AutoThink)大模型。

Kwaipilot團(tuán)隊(duì)透露,除了算法與架構(gòu)優(yōu)化,Kwaipilot還在構(gòu)建一套大規(guī)模數(shù)據(jù)環(huán)境管理系統(tǒng),徹底解耦訓(xùn)練數(shù)據(jù)、訓(xùn)練沙盒與訓(xùn)練框架。這樣的模塊化設(shè)計(jì),有望實(shí)現(xiàn)數(shù)據(jù)源的獨(dú)立擴(kuò)展、沙盒環(huán)境的安全隔離和訓(xùn)練框架的靈活切換。未來,這一團(tuán)隊(duì)或?qū)⒔桓陡嘀档闷诖捻?xiàng)目。