智東西(公眾號(hào):zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西10月9日?qǐng)?bào)道,昨日,以色列AI創(chuàng)企AI21 Labs開(kāi)源輕量級(jí)推理模型Jamba Reasoning 3B。該模型有30億個(gè)參數(shù),可在包括手機(jī)、電腦在內(nèi)的多種設(shè)備端運(yùn)行,性能超過(guò)Qwen3-4B、Gemma 3-4B等業(yè)界頂尖模型。

手機(jī)能跑的3B推理模型開(kāi)源,比Qwen 3-4B還快,超長(zhǎng)上下文不降速

▲Jamba Reasoning 3B開(kāi)源截圖

Hugging Face地址:
http://huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B

A21稱(chēng),Jamba Reasoning 3B基于其新的SSM-Transformer架構(gòu)構(gòu)建,上下文窗口長(zhǎng)度為256K個(gè)token,能夠處理高達(dá)1M token,與DeepSeek、谷歌、Llama和微軟等競(jìng)爭(zhēng)對(duì)手相比效率提升了2-5倍,在基準(zhǔn)測(cè)試中取得領(lǐng)先成績(jī)。

手機(jī)能跑的3B推理模型開(kāi)源,比Qwen 3-4B還快,超長(zhǎng)上下文不降速

▲Jamba Reasoning 3B在人類(lèi)最后測(cè)試等測(cè)評(píng)中超Qwen 3-4B等模型

其將Jamba Reasoning 3B的優(yōu)勢(shì)總結(jié)為三點(diǎn):

1、智能性能不下降:由于采用了混合SSM-Transformer架構(gòu),Jamba Reasoning 3B比純Transformer模型更高效。

大多數(shù)基于Transformer的模型在上下文長(zhǎng)度超過(guò)32K個(gè)token時(shí)性能會(huì)顯著下降,而Jamba Reasoning 3B能夠處理更長(zhǎng)的上下文長(zhǎng)度,包括高達(dá)100萬(wàn)個(gè)token。這使得它在高級(jí)智能體系統(tǒng)或多模態(tài)應(yīng)用中非常有用,因?yàn)殚L(zhǎng)上下文理解對(duì)輸出質(zhì)量至關(guān)重要。

手機(jī)能跑的3B推理模型開(kāi)源,比Qwen 3-4B還快,超長(zhǎng)上下文不降速

▲Jamba Reasoning 3B的性能雖上下文增長(zhǎng)損耗小

2、領(lǐng)先的智能:Jamba Reasoning 3B的表現(xiàn)優(yōu)于DeepSeek、谷歌、Meta和微軟的其他設(shè)備端模型。

它在指令跟蹤任務(wù)(IFBench)和常識(shí)性知識(shí)(MMLU-Pro和Humanity’s Last Exam)方面尤為出色,這使得Jamba Reasoning 3B成為一款高效且智能的模型,可用于高級(jí)智能體工作流程或設(shè)備端RAG應(yīng)用。

這些成果源于訓(xùn)練后流程,A21將RLVR、SFT、DPO和GRPO等對(duì)齊訓(xùn)練技術(shù)與自主研發(fā)的專(zhuān)有方法相結(jié)合,以確保模型質(zhì)量。

手機(jī)能跑的3B推理模型開(kāi)源,比Qwen 3-4B還快,超長(zhǎng)上下文不降速

▲Jamba Reasoning 3B測(cè)評(píng)超阿里、谷歌等模型

3、專(zhuān)為設(shè)備安全使用而構(gòu)建:此模型獲得Apache 2.0許可,可直接下載到用戶(hù)的計(jì)算機(jī)或手機(jī)上,并使用用戶(hù)自己的文件在設(shè)備上進(jìn)行定制,以實(shí)現(xiàn)完全安全的應(yīng)用程序,即使斷網(wǎng)它們也可以繼續(xù)運(yùn)行。

Jamba Reasoning 3B的混合SSM-Transformer架構(gòu)成功利用了比原始Transformer架構(gòu)小8倍的鍵值緩存 (KV),即使在上下文增長(zhǎng)的情況下也能保持較低的內(nèi)存占用。

在M3 MacBook Pro上,它每秒可以生成40個(gè)token,上下文長(zhǎng)度為32K,這一成績(jī)優(yōu)于Qwen3-4B、DeepSeek Distill Qwen 1.5B、Gemma 3-4B等模型,使其成為高級(jí)智能體應(yīng)用程序中的精簡(jiǎn)組件。

手機(jī)能跑的3B推理模型開(kāi)源,比Qwen 3-4B還快,超長(zhǎng)上下文不降速

▲在M3 MacBook Pro上每秒可以生成40個(gè)token

該模型目前支持的語(yǔ)言包括:英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、葡萄牙語(yǔ)、意大利語(yǔ)、荷蘭語(yǔ)、德語(yǔ)、阿拉伯語(yǔ)和希伯來(lái)語(yǔ)。

結(jié)語(yǔ):輕量模型加速迭代,開(kāi)辟智能體落地新路徑

隨著企業(yè)將AI融入運(yùn)營(yíng),基于云端的大型語(yǔ)言模型暴露出經(jīng)濟(jì)效率低下的問(wèn)題。A21援引研究報(bào)告稱(chēng),40%-70%的AI任務(wù)可以通過(guò)小型語(yǔ)言模型處理,通過(guò)智能路由將成本降低10-30倍。

像Jamba Reasoning 3B這樣的設(shè)備端輕量模型能夠?qū)崿F(xiàn)經(jīng)濟(jì)高效的異構(gòu)計(jì)算分配,在本地處理簡(jiǎn)單任務(wù),同時(shí)保留云端資源用于復(fù)雜推理。這為制造業(yè)和醫(yī)療保健領(lǐng)域的實(shí)時(shí)應(yīng)用提供了低延遲,為遠(yuǎn)程操作提供了離線恢復(fù)能力,并增強(qiáng)了數(shù)據(jù)隱私保護(hù),有望開(kāi)啟了一個(gè)去中心化的AI時(shí)代。