智東西(公眾號(hào):zhidxcom)
作者 | ZeR0
編輯 | 漠影

國(guó)產(chǎn)大模型,給人形機(jī)器人裝上大腦、眼睛、耳朵和嘴巴了!

這位傅利葉通用人形機(jī)器人GRx,立即辨認(rèn)出“水”和“可樂(lè)”,還能根據(jù)說(shuō)話人提出的“想減肥+愛(ài)運(yùn)動(dòng)”需求,給出適合的建議。

讓它夸人,也是張口就來(lái)。

另一位具身智能機(jī)器人“飛燕”,能娓娓道來(lái)地描述眼前的場(chǎng)景,包括室內(nèi)環(huán)境如何、人們?cè)谧鍪裁础?/p>

這意味著以后機(jī)器人迎賓或當(dāng)解說(shuō)員,不再是站樁上崗了,而是活人感滿滿,更自如地跟人侃天侃地聊周?chē)€能察覺(jué)眼前人的心情,通過(guò)改變語(yǔ)氣和音調(diào)給足情緒價(jià)值。

這些多模態(tài)能力,來(lái)自商湯剛剛發(fā)布的新一代「日日新SenseNova V6」大模型。

今天,「日日新SenseNova V6」火力全開(kāi),實(shí)現(xiàn)「長(zhǎng)思維鏈 x 數(shù)理能力 x 推理能力 x 全局記憶」能力升級(jí),包括最長(zhǎng)64K思維鏈、大幅領(lǐng)先GPT-4o的數(shù)據(jù)分析能力、多模態(tài)深度推理國(guó)內(nèi)第一、10分鐘長(zhǎng)視頻理解及深度推理等強(qiáng)項(xiàng),還展示了將先進(jìn)視覺(jué)交互和理解引入機(jī)器人的應(yīng)用效果。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

商湯這次多模態(tài)能力的升級(jí),讓人形機(jī)器人在視覺(jué)和語(yǔ)言能力上,具備了更趨近人的水平。

當(dāng)智東西問(wèn)到是否會(huì)推動(dòng)大模型加速應(yīng)用到具身智能機(jī)器人,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華干脆利落地回答:“這個(gè)肯定會(huì)去做。

林達(dá)華說(shuō),商湯將“如何將機(jī)器人交互能力與具身智能的結(jié)合”視作一個(gè)非常重要的未來(lái)發(fā)展方向。他認(rèn)為最終的AI交互形態(tài)是像人一樣交互,不會(huì)是對(duì)著一個(gè)電腦窗口,屆時(shí)從機(jī)器人、汽車(chē)到手機(jī)、眼鏡,多模態(tài)交互將無(wú)處不在。

除了當(dāng)導(dǎo)游、講解員,「日日新SenseNova V6」也能玩創(chuàng)意,智東西實(shí)測(cè)了讓它給空白梗圖設(shè)計(jì)對(duì)話,腦洞開(kāi)得既多又大。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

它還能速覽中長(zhǎng)分鐘視頻,總結(jié)重點(diǎn)內(nèi)容,精確到視頻里的幾分幾秒,而且能按照用戶要求,將信息按列表形式輸出,或是剪輯指定場(chǎng)景的視頻片段。

只需在商量網(wǎng)頁(yè)版上傳一個(gè)視頻,你就可以做針對(duì)性的提問(wèn),比如“這倆人關(guān)系怎么樣?”、“這個(gè)人推薦的三個(gè)商品,哪個(gè)性價(jià)比高?”

你還可以讓它深入分析故事情節(jié),比如分析某一集《名偵探柯南》里兇手是怎么下毒的。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

林達(dá)華透露說(shuō),今年商湯將把視頻理解支持時(shí)長(zhǎng)進(jìn)一步提升到1小時(shí)。

商量App上的實(shí)時(shí)視音頻交互能力也非常絲滑方便,打開(kāi)手機(jī)攝像頭,就可以哪里不懂問(wèn)哪里。無(wú)論是鏡頭里一掃而過(guò)的街景,還是講解數(shù)學(xué)題和翻譯文字,或者看圖講故事,AI都信手拈來(lái)。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

全新商量網(wǎng)頁(yè)版即日上線,商量App已開(kāi)啟內(nèi)測(cè),日日新SenseNova V6 API明日上線。

網(wǎng)頁(yè)版指路:chat.sensetime.com

商湯還發(fā)布商湯大裝置SenseCore 2.0,同時(shí)推出四大行業(yè)解決方案,要做“最懂大模型的AI基礎(chǔ)設(shè)施”。

值得一提的是,國(guó)產(chǎn)芯片參與了「日日新SenseNova V6」的訓(xùn)練。

商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆告訴智東西,國(guó)產(chǎn)芯片這三年快速進(jìn)步,商湯持續(xù)對(duì)進(jìn)口及國(guó)產(chǎn)芯片做適配和優(yōu)化,希望能提供市場(chǎng)最優(yōu)的性價(jià)比。

一、6000億參數(shù)多模態(tài)基座模型開(kāi)“團(tuán)戰(zhàn)”:強(qiáng)推理 x 強(qiáng)交互 x 長(zhǎng)記憶

2025年大模型發(fā)展有三大重要技術(shù)趨勢(shì):效率至上、多模態(tài)、深度推理。

新發(fā)布的「日日新SenseNova V6」原生多模態(tài)通用大模型,采用混合專家架構(gòu)(MoE),擁有6000億參數(shù),做到三合一:多模態(tài)長(zhǎng)思維鏈+多模態(tài)強(qiáng)化學(xué)習(xí)+多模態(tài)全局記憶。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

其推理能力顯著提升,一個(gè)模型同時(shí)在多模態(tài)推理和純文本推理上做到性能對(duì)標(biāo)國(guó)際領(lǐng)先模型。從商湯展示的分?jǐn)?shù)來(lái)看,SenseNova V6 Reasoner推理模型的推理能力超過(guò)了OpenAI o1和Gemini 2.0 flash-thinking。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

商湯也實(shí)誠(chéng)地放出了SenseNova V6與OpenAI、谷歌、DeepSeek先進(jìn)模型在純文本、多模態(tài)、純文本推理、多模態(tài)推理上的具體分?jǐn)?shù)對(duì)比,總體旗鼓相當(dāng),高低略有參差?。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

其中,純文本推理和多模態(tài)推理方面,SenseNova V6在多項(xiàng)數(shù)學(xué)基準(zhǔn)測(cè)試中的超過(guò)了DeepSeek-R1、OpenAI o1、GPT-4.5。

SenseNova V6的Tablebench通過(guò)率超過(guò)GPT-4o,展現(xiàn)出強(qiáng)推理能力。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

主打?qū)崟r(shí)視音頻交互的SenseNova V6 Omni,實(shí)現(xiàn)了視頻-語(yǔ)音交融的端到端輸入輸出,在多模態(tài)音視頻學(xué)術(shù)榜單上的綜合能力全面領(lǐng)先,單項(xiàng)能力對(duì)標(biāo)專用大模型水準(zhǔn),做到視覺(jué)理解準(zhǔn)確度高,語(yǔ)音錯(cuò)誤率低。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

在場(chǎng)景能力私域評(píng)測(cè)中,SenseNova V6 Omni在識(shí)別能力、問(wèn)答對(duì)話、記憶能力等維度均顯著領(lǐng)先于同類(lèi)產(chǎn)品。

二、攜手具身智能,讓機(jī)器人真聽(tīng)、真看、真思考

模型不能紙上談兵,解決現(xiàn)實(shí)問(wèn)題才是硬本事。商湯認(rèn)為,大模型在商業(yè)應(yīng)用上有兩個(gè)關(guān)鍵價(jià)值:融入真實(shí)的業(yè)務(wù)應(yīng)用,優(yōu)化與人交互體驗(yàn)。

而真實(shí)世界中的對(duì)話,不是像跟DeepSeek對(duì)話那樣,把每個(gè)指令都描述得很完整清晰,可能隨手指著一個(gè)東西提問(wèn):“那個(gè)是啥?”“這道題怎么做?”

對(duì)應(yīng)到機(jī)器人也是如此。

多模態(tài)融合模型可以成為機(jī)器人的大腦和眼睛,增強(qiáng)感知能力,像人一樣進(jìn)行深入思考和自然表達(dá),還有更強(qiáng)的記憶力,比如能夠記住之前來(lái)參觀過(guò)的人。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

這使得機(jī)器人在落地到導(dǎo)覽等應(yīng)用場(chǎng)景時(shí),可以隨時(shí)隨地做講解,在網(wǎng)絡(luò)通暢的狀態(tài)下,實(shí)時(shí)理解和響應(yīng)語(yǔ)音意圖,與人流暢對(duì)話,實(shí)現(xiàn)更擬人化的社交與互動(dòng)。

得益于「日日新SenseNova V6 Omni」多模態(tài)能力的進(jìn)化,機(jī)器人能夠看懂人的手勢(shì),回答人們對(duì)周?chē)h(huán)境及物品的提問(wèn),根據(jù)對(duì)話內(nèi)容和場(chǎng)景靈活切換交流方式,帶給用戶更真實(shí)、親切的互動(dòng)體驗(yàn)。

具身智能將是商湯多模態(tài)推理模型的重要場(chǎng)景之一。此次技術(shù)交流日上,商湯特別設(shè)置具身智能主題論壇。

談到近期引起輿論爭(zhēng)議的“朱嘯虎批量退出人形機(jī)器人”以及具身智能泡沫話題,作為人形機(jī)器人嘉賓代表,銀河通用合伙人、大模型負(fù)責(zé)人張直政談道,作為科研人員,他從謹(jǐn)慎樂(lè)觀的角度來(lái)看待,泡沫對(duì)于驅(qū)動(dòng)科技創(chuàng)新很正常。

商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆認(rèn)為,科技產(chǎn)業(yè)要經(jīng)歷質(zhì)疑,克服質(zhì)疑,才能邁向更認(rèn)真嚴(yán)肅的產(chǎn)業(yè)階段,讓大家更認(rèn)真的思考距離商業(yè)落地還有多遠(yuǎn)。他相信多模態(tài)交互能力會(huì)給機(jī)器人帶來(lái)幫助。

三、AI融入“百姓日用”:總結(jié)中長(zhǎng)視頻重點(diǎn),生成游戲解說(shuō)腳本,實(shí)時(shí)視音頻通話

在日常生活和辦公場(chǎng)景中,應(yīng)用了「日日新SenseNova V6」系列模型后,也能帶來(lái)更多便利和生產(chǎn)力的提升。

比如上傳時(shí)長(zhǎng)10分鐘以內(nèi)的網(wǎng)課、旅游、生活類(lèi)視頻,就可以讓AI快速整理重點(diǎn)、回答與視頻內(nèi)容相關(guān)的問(wèn)題。

商家可以收集顧客對(duì)新品的評(píng)論吐槽截圖,讓「日日新SenseNova V6」做專業(yè)的經(jīng)營(yíng)分析。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

它還能解決真實(shí)辦公場(chǎng)景里繁瑣但重要的需求,包括信息管理、報(bào)告生成、運(yùn)維日志生成、數(shù)學(xué)建模等。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

另外通過(guò)商量app,不僅有常見(jiàn)的文字聊天、圖片問(wèn)答、深度思考等功能,還能進(jìn)行音頻通話和視頻通話,并針對(duì)四大高頻需求,提供「數(shù)學(xué)解題」、「點(diǎn)讀翻譯」、「文旅講解」、「繪本講解」四大功能。

你可以跟AI玩“你畫(huà)我猜”。在開(kāi)場(chǎng)演示中,「日日新SenseNova V6」立即識(shí)別出用戶正在畫(huà)的是哪吒大電影里的太乙真人。它還能惟妙惟肖地模仿太乙真人角色的口音。

拍照解題幾乎已經(jīng)是各類(lèi)多模態(tài)AI聊天app的標(biāo)配。但這些普遍要先拍照,上傳照片,再等AI輸出一個(gè)很長(zhǎng)的答案。

而通過(guò)商量app實(shí)時(shí)視頻通話,AI可以像一個(gè)真人家教,精準(zhǔn)識(shí)別手寫(xiě)體,深度推理分析和定位錯(cuò)誤,并針對(duì)錯(cuò)誤點(diǎn)一步一步引導(dǎo)式講題。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

外出旅游就更方便了,相當(dāng)于在手機(jī)里擁有一個(gè)博學(xué)多識(shí)的免費(fèi)導(dǎo)游,打開(kāi)攝像頭一掃,想問(wèn)什么都能立即獲得答案。你還可以把攝像頭對(duì)準(zhǔn)外文書(shū)籍或菜單,讓AI實(shí)時(shí)翻譯。

在家庭場(chǎng)景,很多家長(zhǎng)沒(méi)有時(shí)間讀繪本,或者得絞盡腦汁地給孩子講故事。這也可以由商量app代勞,它能實(shí)現(xiàn)連續(xù)記憶與時(shí)序邏輯理解,講述更完整生動(dòng)的故事,還能挖掘故事深意,升華主旨。

四、三大多模態(tài)技術(shù)創(chuàng)新,商湯大裝置大降推理成本

上述進(jìn)展離不開(kāi)商湯在技術(shù)上的持續(xù)創(chuàng)新。會(huì)上,商湯著重強(qiáng)調(diào)了三類(lèi)技術(shù):

(1)多模態(tài)長(zhǎng)思維鏈:通過(guò)智能體(Agents)協(xié)作進(jìn)行長(zhǎng)思維鏈合成和驗(yàn)證,可支持合成最長(zhǎng) 64K的多模態(tài)長(zhǎng)思維鏈,使模型具備面對(duì)復(fù)雜問(wèn)題的長(zhǎng)時(shí)間思考能力。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

(2)多模態(tài)強(qiáng)化學(xué)習(xí):構(gòu)建了面向多種圖文任務(wù)的混合增強(qiáng)學(xué)習(xí)框架,可以同步進(jìn)行基于人類(lèi)偏好的RLHF、基于確定性答案或沙盒運(yùn)行的RFT,并通過(guò)動(dòng)態(tài)調(diào)節(jié)機(jī)制保證主客觀表現(xiàn)的均衡。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

(3)多模態(tài)全局記憶:可將視覺(jué)信息、聽(tīng)覺(jué)、語(yǔ)言、與時(shí)間軸邏輯進(jìn)行對(duì)齊,形成多模態(tài)統(tǒng)一時(shí)序表征。在此基礎(chǔ)上通過(guò)內(nèi)容敏感的細(xì)粒度級(jí)聯(lián)信息壓縮,實(shí)現(xiàn)400倍的長(zhǎng)視頻壓縮。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

此外,SenseNova V6 Video將視頻理解時(shí)長(zhǎng)突破到10分鐘,離不開(kāi)長(zhǎng)視頻統(tǒng)一表征和動(dòng)態(tài)壓縮的技術(shù)進(jìn)步,可將10分鐘長(zhǎng)視頻壓縮到16K tokens,同時(shí)仍然保留關(guān)鍵語(yǔ)義。通過(guò)“視覺(jué)-聽(tīng)覺(jué)-語(yǔ)義”三重關(guān)聯(lián)推理,它能發(fā)現(xiàn)視頻內(nèi)容中的一些矛盾和漏洞。

大模型技術(shù)的高效落地與規(guī)?;瘧?yīng)用,離不開(kāi)高效穩(wěn)定的算力底座。據(jù)商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆透露,商湯大裝置已經(jīng)將商湯多模態(tài)推理應(yīng)用的成本降到和大語(yǔ)言模型一樣

通過(guò)PD分離/通信計(jì)算折疊/FP8強(qiáng)化/算子優(yōu)化等基礎(chǔ)設(shè)施與模型協(xié)同優(yōu)化,結(jié)合預(yù)測(cè)模型驅(qū)動(dòng)的彈性伸縮技術(shù),商湯大裝置實(shí)現(xiàn)了推理性能的突破,在線服務(wù)性能較頭部廠商提升15%,超行業(yè)平均水平25%;離線推理方面,Prefill階段提速5倍,Decode階段提速3.5倍。

此外,商湯大裝置聯(lián)合某頭部客戶進(jìn)行了大規(guī)模異構(gòu)混訓(xùn),基于自動(dòng)并行策略、跨芯通信、容錯(cuò)恢復(fù)等核心技術(shù),在5000張國(guó)產(chǎn)GPU集群上實(shí)現(xiàn)1個(gè)月穩(wěn)定異構(gòu)混訓(xùn),達(dá)成80%算力利用率,成功突破單一GPU限制,為國(guó)產(chǎn)芯片碎片化問(wèn)題提供了關(guān)鍵解決方案。

商湯甩出具身智能大招!最強(qiáng)多模態(tài)大模型登場(chǎng),給機(jī)器人裝上大腦和眼睛

商湯大裝置還宣布今年發(fā)放1億代金券,全棧賦能場(chǎng)景落地。

結(jié)語(yǔ):商湯堅(jiān)定“三位一體”戰(zhàn)略,加速“一基兩翼”布局

大模型算法與基礎(chǔ)設(shè)施的聯(lián)合優(yōu)化,已經(jīng)成為推動(dòng)生成式AI飛速發(fā)展的核心動(dòng)力。

當(dāng)前,商湯正基于“大裝置-大模型-應(yīng)用”三位一體核心戰(zhàn)略,全面構(gòu)建未來(lái)競(jìng)爭(zhēng)力,致力于通過(guò)基礎(chǔ)設(shè)施、大模型和應(yīng)用的協(xié)同迭代,成為“最懂算力的大模型服務(wù)商”和“最懂大模型的算力服務(wù)商”。

基于三位一體戰(zhàn)略,商湯打造以日日新(SenseNova)多模態(tài)大模型為基石,以生產(chǎn)力工具和交互工具為兩大落地方向的“一基兩翼”布局。其中生產(chǎn)力工具側(cè)重在企業(yè)copilot、金融、政務(wù),交互化工具側(cè)重在擬人交互、多模態(tài)交互、智能營(yíng)銷(xiāo)。

從技術(shù)突破、商業(yè)落地到生態(tài)協(xié)同,商湯正在摸索出作為獨(dú)立AI企業(yè)的核心競(jìng)爭(zhēng)力,深入真實(shí)場(chǎng)景需求,服務(wù)于大眾和企業(yè)日常,將多模態(tài)大模型的優(yōu)勢(shì)真正落到實(shí)處,實(shí)現(xiàn)更智慧、更溫暖、更有用的人機(jī)交互。