智東西(公眾號(hào):zhidxcom)
作者 | 陳駿達(dá)
編輯 | 李水青

昨晚,DeepSeek再度開(kāi)創(chuàng)歷史!

智東西9月18日?qǐng)?bào)道,9月17日,由DeepSeek團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上了國(guó)際權(quán)威期刊《自然(Nature)》的封面。

DeepSeek-R1論文首次公開(kāi)了僅靠強(qiáng)化學(xué)習(xí),就能激發(fā)大模型推理能力的重要研究成果,啟發(fā)全球AI研究者;這一模型還成為全球最受歡迎的開(kāi)源推理模型,Hugging Face下載量超1090萬(wàn)次。此番獲得《自然》的認(rèn)證,可謂是實(shí)至名歸。

與此同時(shí),DeepSeek-R1也是全球首個(gè)經(jīng)過(guò)同行評(píng)審的主流大語(yǔ)言模型?!蹲匀弧吩谏缯撝懈叨仍u(píng)價(jià)道:幾乎所有主流的大模型都還沒(méi)有經(jīng)過(guò)獨(dú)立同行評(píng)審,這一空白“終于被DeepSeek打破”。

《自然》認(rèn)為,在AI行業(yè)中,未經(jīng)證實(shí)的說(shuō)法和炒作已經(jīng)“司空見(jiàn)慣”,而DeepSeek所做的一切,都是“邁向透明度和可重復(fù)性的可喜一步”。

剛剛,梁文鋒發(fā)Nature了!

▲《自然》雜志封面標(biāo)題:自助——強(qiáng)化學(xué)習(xí)教會(huì)大模型自我改進(jìn)

發(fā)表在《自然》雜志的新版DeepSeek-R1論文,與今年1月未經(jīng)同行評(píng)審的初版有較大差異,披露了更多模型訓(xùn)練的細(xì)節(jié),并正面回應(yīng)了模型發(fā)布之初的蒸餾質(zhì)疑。

剛剛,梁文鋒發(fā)Nature了!

▲發(fā)表在《自然》雜志的DeepSeek-R1論文

在長(zhǎng)達(dá)64頁(yè)的同行評(píng)審文件中,DeepSeek介紹,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的數(shù)據(jù)全部來(lái)自互聯(lián)網(wǎng),雖然可能包含GPT-4生成的結(jié)果,但絕非有意而為之,更沒(méi)有專門(mén)的蒸餾環(huán)節(jié)。

DeepSeek也在補(bǔ)充材料中提供了訓(xùn)練過(guò)程中減輕數(shù)據(jù)污染的詳細(xì)流程,以證明模型并未在訓(xùn)練數(shù)據(jù)中有意包含基準(zhǔn)測(cè)試,從而提升模型表現(xiàn)。

此外,DeepSeek對(duì)DeepSeek-R1的安全性進(jìn)行了全面評(píng)估,證明其安全性領(lǐng)先同期發(fā)布的前沿模型。

《自然》雜志認(rèn)為,隨著AI技術(shù)日漸普及,大模型廠商們無(wú)法驗(yàn)證的宣傳可能對(duì)社會(huì)帶來(lái)真實(shí)風(fēng)險(xiǎn)。依靠獨(dú)立研究人員進(jìn)行的同行評(píng)審,是抑制AI行業(yè)過(guò)度炒作的一種有效方式。

論文鏈接:

https://www.nature.com/articles/s41586-025-09422-z#code-availability

同行評(píng)審報(bào)告:

https://www.nature.com/articles/s41586-025-09422-z#MOESM2

補(bǔ)充材料:

https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf

一、新版論文披露多個(gè)重要信息,R1安全性獲全面評(píng)估

在了解新版論文的變化前,我們有必要先回顧下DeepSeek-R1論文的核心內(nèi)容。

DeepSeek-R1的研究出發(fā)點(diǎn),是當(dāng)時(shí)困擾AI業(yè)內(nèi)的一個(gè)重大問(wèn)題。眾所周知,推理能提升大語(yǔ)言模型的能力,但讓模型在后訓(xùn)練階段通過(guò)數(shù)據(jù)學(xué)習(xí)思維鏈軌跡,嚴(yán)重依賴人工標(biāo)注,限制了可擴(kuò)展性。

DeepSeek嘗試通過(guò)強(qiáng)化學(xué)習(xí),讓模型自我演化發(fā)展出推理能力。在DeepSeek-V3 Base的基礎(chǔ)上,DeepSeek使用GRPO作為強(qiáng)化學(xué)習(xí)框架,僅使用最終預(yù)測(cè)結(jié)果與真實(shí)答案的正確性作為獎(jiǎng)勵(lì)信號(hào),未對(duì)推理過(guò)程施加限制,最終構(gòu)建出DeepSeek-R1-Zero。

DeepSeek-R1-Zero通過(guò)強(qiáng)化學(xué)習(xí)成功掌握了改進(jìn)的推理策略,傾向于生成更長(zhǎng)的回答,每個(gè)回答中包含驗(yàn)證、反思和探索備選方案。

剛剛,梁文鋒發(fā)Nature了!

▲DeepSeek-R1-Zero答題正確率隨著推理長(zhǎng)度提升,模型訓(xùn)練中總體回答長(zhǎng)度也不斷提升

DeepSeek在DeepSeek-R1-Zero的基礎(chǔ)上,采用多階段訓(xùn)練結(jié)合RL、拒絕采樣和監(jiān)督微調(diào),開(kāi)發(fā)出DeepSeek-R1,使模型既具備強(qiáng)推理能力,又能更好貼合人類偏好。此外,團(tuán)隊(duì)還蒸餾出小型模型并公開(kāi)發(fā)布,為研究社區(qū)提供了可用資源,推動(dòng)思維鏈推理模型的發(fā)展與應(yīng)用。

除了上述主要科研成果外,在最新版的論文和其他材料中,DeepSeek新增了不少補(bǔ)充信息,讓外界更深入地了解到模型訓(xùn)練和運(yùn)作的細(xì)節(jié)。

基準(zhǔn)測(cè)試數(shù)據(jù)污染是一個(gè)極為敏感的問(wèn)題——如果廠商在訓(xùn)練時(shí)有意或無(wú)意包含了基準(zhǔn)測(cè)試和相關(guān)答案,就很有可能導(dǎo)致模型在相關(guān)測(cè)試上的得分異常偏高,影響基準(zhǔn)測(cè)試評(píng)分的公正性。

DeepSeek透露,為了防止基準(zhǔn)測(cè)試數(shù)據(jù)污染,其已對(duì)DeepSeek-R1的預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)都實(shí)施了全面的去污染措施。以數(shù)學(xué)領(lǐng)域?yàn)槔瑑H在預(yù)訓(xùn)練數(shù)據(jù)中,DeepSeek的去污染流程就識(shí)別并刪除了約六百萬(wàn)條潛在文本。

在后訓(xùn)練階段,數(shù)學(xué)相關(guān)的數(shù)據(jù)均來(lái)自2023年之前的競(jìng)賽,并采用與預(yù)訓(xùn)練相同的過(guò)濾策略,確保訓(xùn)練數(shù)據(jù)與評(píng)測(cè)數(shù)據(jù)完全不重疊。這些措施保證了模型評(píng)測(cè)結(jié)果能夠真實(shí)反映其解決問(wèn)題的能力,而非對(duì)測(cè)試數(shù)據(jù)的記憶。

不過(guò),DeepSeek也承認(rèn)這種去污染方法無(wú)法完全防止對(duì)測(cè)試集的改寫(xiě),因此在2024年之前發(fā)布的部分基準(zhǔn)測(cè)試仍可能存在污染問(wèn)題。

DeepSeek還為DeepSeek-R1新增了一份全面的安全報(bào)告。報(bào)告提到,DeepSeek-R1在服務(wù)部署中引入了外部風(fēng)險(xiǎn)控制系統(tǒng),不僅可以基于關(guān)鍵詞匹配識(shí)別不安全對(duì)話,還使用DeepSeek-V3直接進(jìn)行風(fēng)險(xiǎn)審查,判斷是否應(yīng)拒絕響應(yīng)。DeepSeek建議開(kāi)發(fā)者在使用DeepSeek-R1時(shí),部署類似的風(fēng)險(xiǎn)控制系統(tǒng)。

在公開(kāi)安全基準(zhǔn)測(cè)試和內(nèi)部安全研究中,DeepSeek-R1在大多數(shù)基準(zhǔn)上超過(guò)了Claude-3.7-Sonnet、GPT-4o等前沿模型。開(kāi)源部署版本的安全性雖不及具備外部風(fēng)險(xiǎn)控制系統(tǒng)的版本,但仍擁有中等水平的安全保障。

剛剛,梁文鋒發(fā)Nature了!

DeepSeek-R1發(fā)布之初,曾有傳聞稱該模型使用了OpenAI的模型進(jìn)行蒸餾,這也出現(xiàn)在審稿人的提問(wèn)中。

對(duì)此,DeepSeek做出了正面回應(yīng),稱DeepSeek-V3-Base的預(yù)訓(xùn)練數(shù)據(jù)全部來(lái)源于網(wǎng)絡(luò),反映自然數(shù)據(jù)分布,“可能包含由先進(jìn)模型(如GPT-4)生成的內(nèi)容”,但DeepSeek-V3-Base并沒(méi)有引入在合成數(shù)據(jù)集上進(jìn)行大規(guī)模監(jiān)督蒸餾的“冷卻”階段。

DeepSeek-V3-Base的數(shù)據(jù)截止時(shí)間為2024年7月,當(dāng)時(shí)尚未發(fā)布任何公開(kāi)的先進(jìn)推理模型,這進(jìn)一步降低了從現(xiàn)有推理模型中無(wú)意蒸餾的可能性。

更重要的是,DeepSeek-R1論文的核心貢獻(xiàn),也就是R1-Zero,不涉及從先進(jìn)模型進(jìn)行蒸餾。其強(qiáng)化學(xué)習(xí)(RL)組件是獨(dú)立訓(xùn)練的,不依賴于GPT-4或其他類似能力模型的輸出或指導(dǎo)。

二、R1論文開(kāi)創(chuàng)大模型科研新范式,《自然》盛贊其填補(bǔ)空白

在社論中,《自然》詳細(xì)地分析了DeepSeek-R1經(jīng)歷完整同行評(píng)審流程,并登上期刊的價(jià)值。

大模型正在迅速改變?nèi)祟惈@取知識(shí)的方式,然而,目前最主流的大模型都沒(méi)有在研究期刊中經(jīng)歷過(guò)獨(dú)立的同行評(píng)審,這是一個(gè)嚴(yán)重的空白。

同行評(píng)審出版物有助于闡明大模型的工作原理,也有助于業(yè)內(nèi)評(píng)估大模型的表現(xiàn)是否與廠商宣傳的一致。

DeepSeek改變了這一現(xiàn)狀。DeepSeek在今年2月14日將DeepSeek-R1論文提交至《自然》,而直到7月17日才被接收,9月17日正式發(fā)布。

在這一過(guò)程中,有8位外部專家參與了同行評(píng)審,對(duì)這項(xiàng)工作的原創(chuàng)性、方法和魯棒性進(jìn)行了評(píng)估。在最終發(fā)布的版本中,審稿報(bào)告與作者回復(fù)都被一并披露。

智東西也深入研讀了DeepSeek-R1論文的審稿意見(jiàn)與作者回復(fù)。這份文件長(zhǎng)達(dá)64頁(yè),接近論文本身篇幅的3倍。

剛剛,梁文鋒發(fā)Nature了!

▲DeepSeek同行評(píng)審材料封面

8位審稿人共提出上百條具體意見(jiàn),既包括對(duì)單詞單復(fù)數(shù)等細(xì)節(jié)的修改,也涵蓋對(duì)論文中將AI“擬人化”的警示,以及對(duì)數(shù)據(jù)污染和模型安全性問(wèn)題的關(guān)注。

例如,在下方修改意見(jiàn)中,審稿人敏銳地捕捉到了“將DeepSeek-R1-Zero開(kāi)源”這一表述的模糊性,并提醒DeepSeek,“開(kāi)源”這一概念的界定仍存爭(zhēng)議,在使用相關(guān)表述時(shí)需要格外注意。

這位審稿人還要求DeepSeek在論文中附上SFT和RL數(shù)據(jù)的鏈接,而不僅僅是提供數(shù)據(jù)樣本。

剛剛,梁文鋒發(fā)Nature了!

▲一位審稿人的部分修改意見(jiàn)

DeepSeek認(rèn)真回應(yīng)了審稿人提出的每一個(gè)問(wèn)題,前文提到的多個(gè)章節(jié)與補(bǔ)充信息,正是在審稿人的建議下新增的。

雖然DeepSeek也曾在今年1月發(fā)布DeepSeek-R1的技術(shù)報(bào)告,但《自然》認(rèn)為,此類技術(shù)文檔與實(shí)際情況之間的差距可能很大。

相比之下,在同行評(píng)審中,外部專家并不是被動(dòng)接收信息,而是能夠在獨(dú)立第三方(編輯)的主持和管理下,通過(guò)協(xié)作提出問(wèn)題,并要求論文作者補(bǔ)充信息。

同行評(píng)審能夠提升論文的清晰度,并確保作者對(duì)其主張作出合理的論證。這一流程并不一定會(huì)對(duì)文章內(nèi)容帶來(lái)重大修改,但卻能增強(qiáng)研究的可信度。對(duì)AI開(kāi)發(fā)者而言,這意味著他們的工作會(huì)更為扎實(shí),并更具說(shuō)服力。

結(jié)語(yǔ):DeepSeek開(kāi)源模式或成行業(yè)典范

作為國(guó)產(chǎn)開(kāi)源 AI 模型走向世界的代表,DeepSeek-R1在全球開(kāi)源社區(qū)擁有極高的口碑。而在本次登上《自然》雜志封面后,DeepSeek又補(bǔ)充了這一模型的更多信息,為開(kāi)源社區(qū)提供了科研參考、模型復(fù)現(xiàn)思路以及應(yīng)用支持。

《自然》雜志呼吁更多的AI公司將其模型提交給同行進(jìn)行評(píng)審,確保其聲明經(jīng)過(guò)驗(yàn)證和澄清。在這一背景下,DeepSeek的開(kāi)源模式不僅展示了國(guó)產(chǎn)AI的技術(shù)實(shí)力,也有望成為全球AI行業(yè)在科研透明度方面的參考典范。