智東西(公眾號:zhidxcom)
作者|陳駿達(dá)
編輯|漠影

智東西2月25日報(bào)道,今天,阿里通義千問團(tuán)隊(duì)推出QwQ-Max-Preview深度思考模型,并支持聯(lián)網(wǎng)搜索,展現(xiàn)出超強(qiáng)的通用能力,不僅現(xiàn)場銳評了最新的《哪吒2》電影,還能寫代碼、做數(shù)學(xué)題,并可以勝任創(chuàng)意寫作、游戲開發(fā)等開放性任務(wù)。這款模型會在不久后開源,目前已在通義千問的新官網(wǎng)上線,僅需點(diǎn)擊聊天框左下角的“深度思考(QwQ)”按鈕即可體驗(yàn)。

QwQ-Max-Preview的博客文章有滿屏醒目的顏文字,并附上跳轉(zhuǎn)到體驗(yàn)頁面和Discord的鏈接,還特別標(biāo)注出這篇博客是正是由新模型親自操刀的,模型撰寫博客時(shí)的思考過程也被一并呈現(xiàn)在文內(nèi)。

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

體驗(yàn)鏈接:https://chat.qwen.ai/

Discord鏈接:https://discord.com/invite/yPEP2vHTu4

在DeepSeek推出DeepSeek-R1深度思考模型后,阿里和騰訊都爭相推出了類R1的深度推理模型。QwQ-Max-Preview基于Qwen2.5-Max構(gòu)建,在數(shù)學(xué)、編程以及通用任務(wù)中展現(xiàn)了更強(qiáng)的能力,同時(shí)在與Agent相關(guān)的工作流中也有不錯(cuò)的表現(xiàn)。作為即將發(fā)布的QwQ-Max的預(yù)覽版,這個(gè)版本還在持續(xù)優(yōu)化中。

通義千問團(tuán)隊(duì)計(jì)劃在不久的將來以Apache 2.0許可協(xié)議開源發(fā)布QwQ-Max以及Qwen2.5-Max。此外,通義千問計(jì)劃面向全球用戶推出Qwen Chat App,并開源更適合端側(cè)的小尺寸推理模型。

博客內(nèi),通義千問團(tuán)隊(duì)放出了多個(gè)實(shí)測案例。

通義千問的深度思考模型能與聯(lián)網(wǎng)功能結(jié)合,根據(jù)實(shí)時(shí)互聯(lián)網(wǎng)信息進(jìn)行推理,先來看看通義千問是怎么評價(jià)《哪吒2》的。在打開深度思考和聯(lián)網(wǎng)搜索功能后,千問快速查詢互聯(lián)網(wǎng)信息,并在思考過程中與答案里都清晰地引用信源。

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

下方是QwQ對《哪吒2》的評價(jià),截圖后由Qwen2.5-VL-72B-Instruct翻譯:

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

下一個(gè)案例主要展現(xiàn)了模型的代碼能力。提示詞為“創(chuàng)建一個(gè)p5.js腳本,用于在旋轉(zhuǎn)的球體內(nèi)創(chuàng)建100個(gè)彈跳的黃色小球。小球被限制在球體內(nèi),并且正確處理了碰撞檢測。球體緩慢旋轉(zhuǎn)以產(chǎn)生動態(tài)效果。”

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

長時(shí)間思考后,QwQ-Max-Preview輸出了71行代碼,并附上了對代碼主要功能的描述和使用指南,可以說是十分全面了。復(fù)制代碼并運(yùn)行后,可以看到動畫的效果基本符合提示詞要求。

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

不過,當(dāng)智東西將同款提示詞甩給體驗(yàn)鏈接中的QwQ-Max-Preview,它給出的代碼運(yùn)行后可以說是“車禍現(xiàn)場”,黃色小球漫天飛舞,完全忽視了“小球被限制在球體內(nèi)”這一要求。這一現(xiàn)象或許是由于預(yù)覽版本尚不穩(wěn)定。

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

接下來的測試任務(wù)是游戲開發(fā)。QwQ-Max-Preview收到的需求是:“在同一個(gè)HTML文件中創(chuàng)建一個(gè)游戲。發(fā)揮你的想象力,將俄羅斯方塊和2048游戲結(jié)合成一個(gè)游戲?!?/p>

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

模型開發(fā)出的新游戲確實(shí)將兩款游戲的玩法結(jié)合了起來,原版2048游戲是通過滑動方塊進(jìn)行相同數(shù)字的消除,而新游戲中數(shù)字將會從上方掉落,需要玩家進(jìn)行操作并消除。

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

這款模型還能勝任更為復(fù)雜的游戲開發(fā)任務(wù),例如下方提示詞這種帶調(diào)整的:

創(chuàng)建一個(gè)棋盤游戲網(wǎng)頁,顯示一個(gè)六邊形網(wǎng)格,就像在《卡坦島》游戲中一樣。每個(gè)六邊形網(wǎng)格都標(biāo)有從1到N的數(shù)字,其中N是六邊形格子的總數(shù)。使其具有通用性,以便可以使用滑塊更改“環(huán)”的數(shù)量。例如,在《卡坦島》中,半徑為3個(gè)六邊形。請使用單個(gè)HTML頁面。

案例中模型對提示詞的理解還是比較到位的,拖動滑塊確實(shí)可以修改環(huán)的數(shù)量。

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

不過,在我們用同樣提示詞進(jìn)行的實(shí)測中,完成效果依舊不太理想,從六邊形的形狀到格子的排列,都與原提示詞的要求有些偏差,還出現(xiàn)了超出顯示范圍的問題?;蛟S在未來正式版發(fā)布后,這些問題能得到解決。

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

通義千問思考模型本次還融入了Agent能力,支持工具選擇,不過目前的體驗(yàn)版本尚不支持。在博客文章中提供的案例里,可以看到這些工具包括圖像生成、物流追蹤、二維碼生成、港股行情等。

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

示例中,測試人員選擇了二維碼生成器和圖像生成兩款工具,要求模型生成一個(gè)穿著白色連衣裙的女孩,然后展示一個(gè)指向taobao.com的二維碼圖片。

生成結(jié)果是這樣的,可以看到模型選擇了二次元的畫風(fēng),畫面內(nèi)容符合要求,二維碼實(shí)測也可以跳轉(zhuǎn)至淘寶官網(wǎng)。

阿里開源推理模型QwQ!可聯(lián)網(wǎng)搜索,思維鏈裸奔,開發(fā)者玩瘋了

據(jù)通義千問團(tuán)隊(duì)介紹,本次他們既會開源滿血版思考模型,也將推出輕量級的變體,還會將其融入應(yīng)用,此舉是為了讓不同層次用戶都能體驗(yàn)到這款模型的能力。他們也邀請全球開發(fā)者社群對這些模型進(jìn)行實(shí)驗(yàn)、優(yōu)化和擴(kuò)展,探索從教育工具到agent等多樣化應(yīng)用場景。

QwQ-Max-Preview的發(fā)布及將要到來的開源,意味著阿里也正式加入了這波推理模型的開源潮。阿里的Qwen系列模型作為當(dāng)今全球影響力最大的開源模型家族之一,衍生模型數(shù)量已經(jīng)超過9萬個(gè),還霸榜了Hugging Face開源榜單的全球前10名。在正式版的QwQ-Max開源發(fā)布后,或許還會給全球開發(fā)者帶來更多的驚喜。