智東西(公眾號:zhidxcom)
作者 | 云鵬
編輯 | 李水青

智東西2月12日消息,春節(jié)將至,國產(chǎn)AI大模型之戰(zhàn)愈發(fā)火爆。

短短1天多時間,DeepSeek、智譜、字節(jié)等多家廠商模型密集更新,MiniMax-M2.5正式上線,其重點提升了Agent和編程能力。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲MiniMax-M2.5已可選

MiniMax AI相關(guān)負責人在X平臺上發(fā)文稱,他想盡快發(fā)布M2.5,已經(jīng)迫不及待想回家過年了,但隨著他們投入的訓(xùn)練計算增多,模型效果也越來越好,這是一個痛并快樂著的問題。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲MiniMax AI工程負責人Skyler Miao在X平臺發(fā)文

智東西第一時間體驗了MiniMax-M2.5在定時任務(wù)、網(wǎng)頁制作、調(diào)研報告撰寫、視頻生成、PPT制作等任務(wù)執(zhí)行上的能力。

從結(jié)果來看,網(wǎng)頁制作是其強項,尤其在可視化表達方面,網(wǎng)頁的視覺呈現(xiàn)效果較好,比如我可以一句話讓它生成一家公司的投資分析儀表盤。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲關(guān)于蘋果公司的可視化儀表盤分析網(wǎng)頁

做一個“黃金礦工”網(wǎng)頁版游戲,MiniMax-M2.5也可以給出不錯的結(jié)果。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲網(wǎng)頁版黃金礦工小游戲

定時任務(wù)方面,其可以按照要求按時完成任務(wù),但不同任務(wù)呈現(xiàn)的結(jié)果質(zhì)量有一定差異。此外,不論是PPT制作還是調(diào)研報告生成,其生成結(jié)果的詳實程度都較好,輸出篇幅較長。

有X平臺用戶提前三天拿到了內(nèi)測資格,他發(fā)文稱,MiniMax-M2.5提升明顯,和Opus 4.6打的有來有回,其模型體積小,據(jù)傳Mac mini也能部署。他還曬出了MiniMax-M2.5制作的網(wǎng)頁版“macOS系統(tǒng)”。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲X平臺用戶評價

截至2月12日港股收盤,MiniMax股價漲幅14.62%,總市值1622億人民幣,其股價盤中曾一度漲幅超23.5%。根據(jù)官網(wǎng)信息,MiniMax將于3月2日公布全年業(yè)績。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲截至2月12日收盤,MiniMax港股股價情況

一、網(wǎng)頁設(shè)計是強項,一句話做“黃金礦工”小游戲

首先,在考察編程能力的網(wǎng)頁制作環(huán)節(jié),我們讓模型創(chuàng)建一個網(wǎng)頁儀表盤,對蘋果公司進行可視化分析,內(nèi)容必須涵蓋財務(wù)健康狀況、技術(shù)面/市場情緒、競爭對手比較以及戰(zhàn)略估值(SWOT/內(nèi)在價值),以提供明確的投資建議。

從結(jié)果來看,需求中提到的基本指標都有較好覆蓋,SWOT分析給出的較為具體,整體網(wǎng)頁設(shè)計比較簡潔、美觀,基本的動效都已做好,數(shù)據(jù)展示較為直觀,鼠標懸停在統(tǒng)計圖表上會有對應(yīng)數(shù)據(jù)呈現(xiàn)。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

接著,我們讓模型為一家AI創(chuàng)業(yè)公司設(shè)計官方網(wǎng)站,融入太空主題元素,使用黑、白、灰作為主色調(diào),營造出酷炫、精致且充滿科技感的氛圍,特別要有一個能讓用戶感到震撼的精美地球動畫。

從結(jié)果來看,網(wǎng)頁焦點處確實有地球動畫效果呈現(xiàn),且地球本身可以跟隨鼠標進行一定程度的運動。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

但網(wǎng)頁本身并沒有實現(xiàn)主色調(diào)的要求,對于精致、科技感的要求沒有明確呈現(xiàn),地球動畫本身帶有一些類似“粒子光效”的表現(xiàn),但整體感覺并未達到“震撼”的水平。

網(wǎng)頁游戲制作令我們印象比較深刻,雖然第一次的生成效果“翻車”,游戲無法交互游玩。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲初次生成的版本無法游玩,僅有首頁封面

但重新生成后,游戲本身完成度還是比較高的:

▲同樣提示詞,第二次生成的結(jié)果

基本的游戲模式、游戲說明、游戲關(guān)卡、游戲操作都按照要求完成了,并且確實可以游玩,游戲過程還配合了對應(yīng)的音效。

二、專業(yè)報告一鍵生成,PPT制作學(xué)會用比喻潤色

此外,我們通過幾個任務(wù)測試了模型生成專業(yè)研究報告的能力,比如全面梳理AI開源推理生態(tài)、分析應(yīng)用場景、對應(yīng)方案并分析原因。

從結(jié)果來看,其輸出內(nèi)容邏輯清晰,在展示不同框架異同時用了表格進行對比,內(nèi)容較多比較詳實,約6000字。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲AI開源推理生態(tài)相關(guān)研究報告生成

對于“計劃開發(fā)一款針對初學(xué)者的AI 3D建模工具”這一需求,我們讓模型分析目標用戶畫像和用戶在主要場景下的核心痛點,并推導(dǎo)出對應(yīng)的潛在功能需求,寫出MVP需求文檔和初期運營增長路徑。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲AI 3D建模工具產(chǎn)品MVP需求文檔

從結(jié)果來看,所有需求要點都有比較準確的對應(yīng)信息,需求文檔和運營增長路徑都有多個表格呈現(xiàn)梳理的內(nèi)容,路徑規(guī)劃較為具體。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲AI 3D建模工具初期運營增長路徑

PPT制作環(huán)節(jié),我們要求PPT“讓學(xué)生真的能聽進去”,舉的例子能讓他們產(chǎn)生共鳴,對于這一需求,模型在PPT制作中用了很多“比喻”,融入了一些當代元素,比如“唐朝朋友圈”、將長安城比作“北上廣深”、將杜甫比作關(guān)注民生的“新聞記者”。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

不過模型在PPT制作的美觀程度和細節(jié)嚴謹程度方面還有待提升。

三、新聞報告成“舊聞匯總”,視頻生成仍有優(yōu)化空間

Agent能力方面,我們還測試了兩個定時任務(wù),包括每日科技要聞?wù)蚑ikTok熱門趨勢周度分析。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

雖然需求強調(diào)了是24小時內(nèi)新聞,但給出的8個新聞全部為“過時消息”,基本均為2025年舊聞。這樣即便總結(jié)的新聞內(nèi)容較為準確,但已經(jīng)失去了最根本的“新聞”屬性。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲每日科技新聞?wù)?/p>

同時,對于檢索來源的標注只標明了媒體名稱,并未帶上對應(yīng)的網(wǎng)頁鏈接。

在TikTok熱門趨勢周度分析任務(wù)中,模型首先總結(jié)了核心趨勢動向,接著對熱門挑戰(zhàn)、熱門音頻、熱門話題標簽、重要創(chuàng)作者等部分進行了分析總結(jié),最后按照要求給出了內(nèi)容創(chuàng)作建議。

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

▲TikTok熱門趨勢分析報告

最后,我們簡單嘗試了視頻生成,從結(jié)果來看,模型并沒有對需求中狗的品種有準確呈現(xiàn),不過畫面的氛圍、主物體動作、背景元素都有準確還原。

提示詞:

春節(jié)檔國產(chǎn)AI模型混戰(zhàn)開打,MiniMax-M2.5上線,隨手做“蘋果系統(tǒng)”

結(jié)果:

結(jié)語:編程和Agent能力仍是模型競賽焦點

雖然MiniMax-M2.5尚未官宣發(fā)布,但從實際體驗和公開評價來看,其提升的重點仍然是Agent能力和編程能力,這也是當前主流大模型競爭的焦點。

從生成結(jié)果來看,“拿來即用”仍然存在一定距離,大部分結(jié)果仍然需要修改校對,對需求的準確呈現(xiàn)仍然存在優(yōu)化空間。