4月1日-2日,2025中國生成式AI大會(北京站)「GenAICon 2025北京站」將在北京中關(guān)村東升科技園萬麗酒店盛大舉辦。中國生成式AI大會已成功舉辦三屆,現(xiàn)已成為國內(nèi)人工智能領(lǐng)域最具影響力的產(chǎn)業(yè)峰會之一。

本次大會繼續(xù)由智一科技旗下智猩猩智東西共同發(fā)起,以大拐點(diǎn) 新征程為主題,邀請到50+位重量級嘉賓同臺分享和交鋒,深入解構(gòu)DeepSeek引發(fā)的變革狂潮,全面展示國內(nèi)生成式AI重大進(jìn)展。大會也是“智領(lǐng)未來”北京人工智能系列活動之一。

大會主會場首日將進(jìn)行開幕式、GenAI應(yīng)用論壇,次日全天將進(jìn)行大模型峰會;分會場則會先后組織DeepSeek R1與推理模型技術(shù)研討會、AI智能體技術(shù)研討會具身智能大模型技術(shù)研討會。其中,三場研討會為閉門制,主要面向持有閉門專享票、貴賓通票的觀眾開放。

DeepSeek R1與推理模型技術(shù)研討會議程公布,深入解讀R1復(fù)現(xiàn)、慢思考、RL與長思維鏈

作為本次峰會的三場技術(shù)研討會之一,DeepSeek R1與推理模型技術(shù)研討會將在4月1日的下午進(jìn)行,由主題報告和圓桌Panel兩個環(huán)節(jié)組成。

目前,DeepSeek R1與推理模型技術(shù)研討會邀請到360智腦算法資深專家鄒昊晟,中國人民大學(xué)高瓴人工智能學(xué)院在讀博士陳志朋,東南大學(xué)計算機(jī)學(xué)院碩士研究生、LMM-R1一作 、螞蟻金服實(shí)習(xí)算法研究員彭英哲,浙江大學(xué)軟件學(xué)院碩士研究生、LightThinker一作張錦添,華中科技大學(xué)Hust Vision Lab與地平線聯(lián)合培養(yǎng)博士生蔣博5位來自學(xué)術(shù)界和工業(yè)界的青年學(xué)者和技術(shù)專家?guī)韴蟾妗?/p>

性能領(lǐng)先、開源普惠、國產(chǎn)易獲取的三重勢能,造就了2025年初DeepSeek的技術(shù)平權(quán)狂熱。然而,在端側(cè)部署DeepSeek模型時,研究者需在高計算成本和低推理質(zhì)量之間權(quán)衡。3月4日,360智腦開源了Light-R1模型及全部訓(xùn)練數(shù)據(jù)和代碼,用較低的訓(xùn)練成本即可從零訓(xùn)練得到推理模型,在開源時首次實(shí)現(xiàn)領(lǐng)域內(nèi)評測超越DeepSeek-R1-Distill。本次研討會,?360智腦算法資深專家鄒昊晟將以《Light-R1:低成本復(fù)現(xiàn)推理模型之路》為主題,介紹Light-R1背后的課程學(xué)習(xí)SFT、RFT、DPO等方法上的數(shù)據(jù)心得和訓(xùn)練策略,和QwQ-32B、TinyR1等相關(guān)工作在訓(xùn)練資源、方法等各方面進(jìn)行比較。

傳統(tǒng)通用大型語言模型的思維方式更像是“快思考”,其主要依靠算力對海量數(shù)據(jù)進(jìn)行學(xué)習(xí),實(shí)現(xiàn)對后續(xù)空白內(nèi)容的快速預(yù)測,回答人類提出的各類問題,本質(zhì)上是基于概率模型對可能的答案進(jìn)行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進(jìn)行一段時間“慢思考”,依據(jù)特定思維鏈條,提供更全面解答。本次研討會,中國人民大學(xué)高瓴人工智能學(xué)院陳志朋博士將以《類o1模型復(fù)現(xiàn)探索與行業(yè)思考,慢思考的外置、內(nèi)化與提升》為題,闡述如何通過獎勵引導(dǎo)的外置樹搜索、“模仿、探索和自我改進(jìn)”的框架來增強(qiáng)大語言模型的推理能力。陳志朋博士負(fù)責(zé)推進(jìn)“STILL”系列研究工作,探索大模型慢思考能力這一前沿課題,為提升大模型的深度推理能力提供了新的思路。

大型多模態(tài)模型在處理視覺與語言信息時面臨著顯著的推理能力挑戰(zhàn),尤其是在多模態(tài)環(huán)境下實(shí)現(xiàn)高質(zhì)量的邏輯推理更是難上加難。LMM-R1提出了一種創(chuàng)新的兩階段框架,通過規(guī)則強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了模型推理能力從文本到多模態(tài)的跨域遷移與泛化。本次研討會,LMM-R1一作彭英哲將以《LMM-R1:探索增強(qiáng)多模態(tài)模型推理能力的兩階段強(qiáng)化學(xué)習(xí)》為題,深入剖析LMM-R1的技術(shù)原理、實(shí)現(xiàn)細(xì)節(jié)與評估結(jié)果,探討這一方法如何推動多模態(tài)AI技術(shù)在實(shí)際應(yīng)用中的落地,以及對未來研究方向的啟示。

大型語言模型在復(fù)雜推理任務(wù)中生成冗長的中間思維步驟會導(dǎo)致顯著的內(nèi)存與計算開銷,限制其實(shí)際應(yīng)用效率。本次研討會,LightThinker一作張錦添將以《長思維鏈高效推理方法——動態(tài)壓縮思維過程》為題,闡述通過訓(xùn)練的方式,讓大型語言模型在合適的時機(jī)自主壓縮冗長的思維為緊湊的表征,并基于壓縮后的內(nèi)容繼續(xù)推理,從而降低顯存開銷,提升推理速度。張錦添主導(dǎo)并開源MachineSoM、OneGen、LightThinker等研究項(xiàng)目,參與agents(github累積5.3k star)項(xiàng)目的構(gòu)建。

DeepSeek R1驗(yàn)證了強(qiáng)化學(xué)習(xí)在模型自主探索和提升模型能力/訓(xùn)練效率上的顯著優(yōu)勢,結(jié)合推理策略,有效增強(qiáng)了模型的復(fù)雜問題解決能力。在自動駕駛領(lǐng)域,終極任務(wù)是planning,這也是一項(xiàng)涉及場景理解、分析、和決策的復(fù)雜任務(wù)。本次研討會,華中科技大學(xué)Hust Vision Lab與地平線聯(lián)合培養(yǎng)博士生蔣博《探索DeepSeek強(qiáng)化學(xué)習(xí)和推理策略在自動駕駛中的巨大潛力》為題,介紹將DeepSeek R1的強(qiáng)化學(xué)習(xí)和推理策略遷移應(yīng)用于駕駛領(lǐng)域,并做出一系列針對駕駛規(guī)劃的策略優(yōu)化,顯著提升大模型自動駕駛決策規(guī)劃的效果,并展現(xiàn)出涌現(xiàn)的多模態(tài)規(guī)劃能力。蔣博是AlphaDrive的一作,代表作VAD/VADv2,已成為端到端自動駕駛的基準(zhǔn)算法。

一、DeepSeek R1與推理模型技術(shù)研討會議程

DeepSeek R1與推理模型技術(shù)研討會議程公布,深入解讀R1復(fù)現(xiàn)、慢思考、RL與長思維鏈

二、技術(shù)研討會報告人及報告主題介紹

DeepSeek R1與推理模型技術(shù)研討會議程公布,深入解讀R1復(fù)現(xiàn)、慢思考、RL與長思維鏈

報告嘉賓:360智腦算法資深專家 鄒昊晟

報告主題:Light-R1:低成本復(fù)現(xiàn)推理模型之路

內(nèi)容概要: 360智腦在3月4日開源了Light-R1模型及全部訓(xùn)練數(shù)據(jù)和代碼,用較低的訓(xùn)練成本即可從零訓(xùn)練得到推理模型,在開源時首次實(shí)現(xiàn)領(lǐng)域內(nèi)評測超越DeepSeek-R1-Distill。報告將介紹Light-R1背后的課程學(xué)習(xí)SFT、RFT、DPO等方法上的數(shù)據(jù)心得和訓(xùn)練策略,和QwQ-32B、TinyR1等相關(guān)工作在訓(xùn)練資源、方法等各方面的比較。雖然Light-R1僅使用數(shù)學(xué)數(shù)據(jù)訓(xùn)練了模型的長推理能力,但在非數(shù)學(xué)任務(wù)上也表現(xiàn)出了泛化性及有效性。隨著訓(xùn)練和推理技術(shù)的不斷發(fā)展,未來長推理模型將更加普及,Light-R1正為低成本快速訓(xùn)練一個領(lǐng)域?qū)>评砟P吞峁┝酥匾獏⒖肌?/p>

DeepSeek R1與推理模型技術(shù)研討會議程公布,深入解讀R1復(fù)現(xiàn)、慢思考、RL與長思維鏈

報告嘉賓:中國人民大學(xué)高瓴人工智能學(xué)院二年級博士研究生 陳志朋

報告主題:類o1模型復(fù)現(xiàn)探索與行業(yè)思考,慢思考的外置、內(nèi)化與提升

內(nèi)容概要:

最近,測試時擴(kuò)展(Test-time Scaling )引起了研究界的廣泛關(guān)注,這在很大程度上得益于OpenAI o1模型和DeepSeek R1模型的重大進(jìn)展。通過在推理階段分配更多的計算資源,大型語言模型(LLMs)可以通過生成更多的思考標(biāo)記或多樣的解決方案,廣泛探索解決空間,從而產(chǎn)生更準(zhǔn)確的響應(yīng)。然而,研發(fā)和訓(xùn)練類似的推理模型具有挑戰(zhàn)性,研究人員一直在進(jìn)行各種嘗試,以推動這一開放研究領(lǐng)域的發(fā)展。我們先后從以下三個方面對復(fù)現(xiàn)類R1的慢思考系統(tǒng)做出了探索。

1.如何通過獎勵引導(dǎo)的外置樹搜索增強(qiáng)大型語言模型的推理能力?

2.如何通過內(nèi)化慢思考過程長程思維鏈,使用“模仿、探索和自我改進(jìn)”的框架來增強(qiáng)大語言模型的推理能力?

3.如何對已經(jīng)具備慢思考能力的大語言模型進(jìn)行進(jìn)一步提升?

DeepSeek R1與推理模型技術(shù)研討會議程公布,深入解讀R1復(fù)現(xiàn)、慢思考、RL與長思維鏈

報告嘉賓:東南大學(xué)計算機(jī)學(xué)院碩士研究生二年級、LMM-R1一作 、螞蟻金服實(shí)習(xí)算法研究員 彭英哲

報告主題: LMM-R1:探索增強(qiáng)多模態(tài)模型推理能力的兩階段強(qiáng)化學(xué)習(xí)

內(nèi)容概要:

大型多模態(tài)模型(LMMs)在處理視覺與語言信息時面臨著顯著的推理能力挑戰(zhàn),尤其是在多模態(tài)環(huán)境下實(shí)現(xiàn)高質(zhì)量的邏輯推理更是難上加難。LMM-R1提出了一種創(chuàng)新的兩階段框架,通過規(guī)則強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了模型推理能力從文本到多模態(tài)的跨域遷移與泛化。在第一階段”基礎(chǔ)推理增強(qiáng)”(FRE)中,LMM-R1利用純文本數(shù)據(jù)集進(jìn)行規(guī)則強(qiáng)化學(xué)習(xí),克服了直接多模態(tài)訓(xùn)練中數(shù)據(jù)稀缺與質(zhì)量不足的瓶頸,構(gòu)建起堅實(shí)的推理基礎(chǔ)。隨后在第二階段”多模態(tài)泛化訓(xùn)練”(MGT)中,模型將已獲得的推理能力自然擴(kuò)展到視覺-語言交互場景,展現(xiàn)出強(qiáng)大的跨模態(tài)泛化能力。實(shí)驗(yàn)表明,該方法在多種基準(zhǔn)測試中取得了顯著進(jìn)步,多模態(tài)任務(wù)平均提升4.83%,純文本任務(wù)提升4.5%,特別在需要復(fù)雜推理的場景中表現(xiàn)尤為突出。更重要的是,LMM-R1建立了一種數(shù)據(jù)高效的訓(xùn)練范式,巧妙規(guī)避了對大量高質(zhì)量多模態(tài)訓(xùn)練數(shù)據(jù)的依賴,為大模型推理能力的提升開辟了新途徑。本次演講將深入剖析LMM-R1的技術(shù)原理、實(shí)現(xiàn)細(xì)節(jié)與評估結(jié)果,探討這一方法如何推動多模態(tài)AI技術(shù)在實(shí)際應(yīng)用中的落地,以及對未來研究方向的啟示。

DeepSeek R1與推理模型技術(shù)研討會議程公布,深入解讀R1復(fù)現(xiàn)、慢思考、RL與長思維鏈

報告嘉賓:浙江大學(xué)軟件學(xué)院碩士研究生二年級、LightThinker一作 張錦添

報告主題:長思維鏈高效推理方法——動態(tài)壓縮思維過程

內(nèi)容概要:

大型語言模型(LLM)在復(fù)雜推理任務(wù)中生成冗長的中間思維步驟會導(dǎo)致顯著的內(nèi)存與計算開銷,限制了其實(shí)際應(yīng)用效率?,F(xiàn)有高效長思維推理方法可以分為兩類,第一類通過提示工程或者訓(xùn)練的方式讓LLM學(xué)會使用較少的詞進(jìn)行推理,第二類通過在LLM推理過程中對kv緩存進(jìn)行裁剪進(jìn)行。本次演講提出LightThinker,一種基于動態(tài)思維壓縮的推理加速方法,其核心是通過訓(xùn)練的方式讓LLM在合適的時機(jī)自主壓縮冗長的思維為緊湊的表征,并基于壓縮后的內(nèi)容繼續(xù)推理,從而降低顯存開銷,提升推理速度。

DeepSeek R1與推理模型技術(shù)研討會議程公布,深入解讀R1復(fù)現(xiàn)、慢思考、RL與長思維鏈

報告嘉賓:華中科技大學(xué)Hust Vision Lab與地平線聯(lián)合培養(yǎng)博士生 蔣博

報告主題:探索DeepSeek強(qiáng)化學(xué)習(xí)和推理策略在自動駕駛中的巨大潛力

內(nèi)容概要:

DeepSeek R1驗(yàn)證了強(qiáng)化學(xué)習(xí)在模型自主探索和提升模型能力/訓(xùn)練效率上的顯著優(yōu)勢,結(jié)合Reasoning策略,有效增強(qiáng)了模型的復(fù)雜問題解決能力。在自動駕駛領(lǐng)域,終極任務(wù)是planning,這也是一項(xiàng)涉及場景理解、分析、和決策的復(fù)雜任務(wù),我們首次嘗試將DeepSeek R1的強(qiáng)化學(xué)習(xí)和推理策略遷移應(yīng)用于駕駛領(lǐng)域,并做出一系列針對駕駛規(guī)劃的策略優(yōu)化,顯著提升大模型自動駕駛決策規(guī)劃的效果,并展現(xiàn)出涌現(xiàn)的多模態(tài)規(guī)劃能力。

三、報名方式

DeepSeek R1與推理模型技術(shù)研討會將在4月1日下午的分會場進(jìn)行,主要向持有閉門專享票、貴賓通票的觀眾開放。

希望參加研討會的朋友,可以掃描下方二維碼,添加小助手泡泡咨詢和購票。已添加過“泡泡”的老朋友,給“泡泡”私信,發(fā)送GenAICon25即可。

DeepSeek R1與推理模型技術(shù)研討會議程公布,深入解讀R1復(fù)現(xiàn)、慢思考、RL與長思維鏈

除了閉門專享票、貴賓通票,大會還設(shè)有主會場觀眾票、主會場VIP票,在主會場的座位分布如下。有需要的朋友可以進(jìn)行免費(fèi)申請或購買。

DeepSeek R1與推理模型技術(shù)研討會議程公布,深入解讀R1復(fù)現(xiàn)、慢思考、RL與長思維鏈