機(jī)器人前瞻(公眾號:robot_pro)
作者?|? 程茜
編輯?|??漠影

機(jī)器人前瞻2月5日報(bào)道,人形機(jī)器人第一股優(yōu)必選近期開源了最新的自研具身智能大模型Thinker,一舉拿下9個權(quán)威基準(zhǔn)測試榜第一。Thinker參數(shù)規(guī)模僅4B,就在多項(xiàng)基準(zhǔn)測試超過10B以上參數(shù)規(guī)模模型,成為大模型領(lǐng)域“以小搏大”的又一典型代表。

拿下9榜第一!優(yōu)必選開源新基座模型,要破解具身智能落地最大難題

此前具身智能落地真實(shí)工業(yè)產(chǎn)線,始終存在難以突破的技術(shù)門檻,核心癥結(jié)便是機(jī)器人空間度量失準(zhǔn)、時(shí)間響應(yīng)遲滯,這也成為其從實(shí)驗(yàn)室技術(shù)走向產(chǎn)業(yè)化應(yīng)用的關(guān)鍵瓶頸。

開源的Thinker模型,正是優(yōu)必選在具身智能規(guī)?;瘧?yīng)用的前夜,交出的一份全新高分答卷,而該模型的性能突破,正源于優(yōu)必選的兩大核心優(yōu)勢:

作為人形機(jī)器人第一股,優(yōu)必選是國內(nèi)深耕人形機(jī)器人領(lǐng)域的先行者,不僅率先實(shí)現(xiàn)人形機(jī)器人的工廠落地應(yīng)用,更在具身智能的場景理解、數(shù)據(jù)積累與模型能力打磨上形成了深厚積淀;

其研發(fā)目標(biāo)瞄準(zhǔn)的是支撐人形機(jī)器人從感知、認(rèn)知、決策到執(zhí)行的全閉環(huán)能力,可以應(yīng)對工業(yè)、服務(wù)等不同場景的多樣化需求,構(gòu)建通用的具身智能基座模型

如今最為直接的例證就是,優(yōu)必選已在自研的Thinker基座模型上進(jìn)行模型的二次開發(fā),真實(shí)應(yīng)用于Walker S2,并在工廠中進(jìn)行小批量應(yīng)用,為其具身智能生態(tài)發(fā)展邁出關(guān)鍵一步。

一、刷榜9大權(quán)威榜單,讓機(jī)器人突破落地限制

Thinker要解決的核心問題是,讓機(jī)器人不僅能在各項(xiàng)測試中“考高分”,還能在真實(shí)業(yè)務(wù)場景里快速落地、真干活。

先來看下這一模型的性能表現(xiàn)。

與多個10B參數(shù)規(guī)模以下模型相比,Thinker在全球的具身智能大腦模型權(quán)威榜中拿下了9項(xiàng)第一。

規(guī)劃與視覺定位能力中,Thinker在全部5個測評中均排名第一。這主要考察的是模型理解空間關(guān)系、定位物體和執(zhí)行規(guī)劃的能力,其結(jié)果說明Thinker在面對看哪里、將物品放到哪里等空間規(guī)劃與視覺理解相關(guān)任務(wù)上有優(yōu)勢。

此外是考察模型對三維空間、立體結(jié)構(gòu)的感知與推理能力的3D空間理解能力維度,Thinker拿下其中三項(xiàng)第一。

還有在多模態(tài)綜合理解方面,Thinker在RealWorldQA基準(zhǔn)測試集上排名第一,證明其在真實(shí)世界的場景問答中的能力,在通用學(xué)術(shù)評測MMMU中,其表現(xiàn)略遜于更大參數(shù)量模型。這進(jìn)一步說明,優(yōu)必選此次開源的新模型在真實(shí)世界應(yīng)用場景的理解上會優(yōu)于通用大模型。

拿下9榜第一!優(yōu)必選開源新基座模型,要破解具身智能落地最大難題

面對參數(shù)規(guī)模更大的10B以上模型,Thinker的表現(xiàn)并不遜色。

其拿下了7項(xiàng)第一,在規(guī)劃與視覺定位、3D空間理解上,Thinker面對機(jī)器人核心感知能力相關(guān)的物體空間關(guān)系理解、目標(biāo)定位、任務(wù)規(guī)劃等測試,表現(xiàn)仍優(yōu)于通用大模型。

不過在多模態(tài)綜合理解上,該模型排名靠后,這或許是因?yàn)槠湓谥R儲備上無法與32B、72B級別的大模型抗衡。

拿下9榜第一!優(yōu)必選開源新基座模型,要破解具身智能落地最大難題

綜合來看,Thinker的表現(xiàn)證明了其能讓機(jī)器人在自主看懂所處環(huán)境、規(guī)劃好做事步驟,以及精準(zhǔn)感知周邊情況、搞懂空間關(guān)系、完成物理互動方面的真本事。

二、手握真實(shí)場景資源,構(gòu)建數(shù)據(jù)飛輪與技術(shù)應(yīng)用正向閉環(huán)

優(yōu)必選選擇打造Thinker通用基座模型,背后有著貼合自身發(fā)展優(yōu)勢與行業(yè)生態(tài)布局的獨(dú)特考量,體現(xiàn)在兩大核心維度:

首先,優(yōu)必選手握大量高質(zhì)量真實(shí)場景數(shù)據(jù),能夠在模型訓(xùn)練中充分釋放數(shù)據(jù)價(jià)值。

其次,Thinker以通用基座能力為基礎(chǔ),可高效適配具身智能與真實(shí)世界場景,實(shí)現(xiàn)更廣泛的產(chǎn)品與生態(tài)落地。

這背后的關(guān)鍵前提就是高質(zhì)量的訓(xùn)練數(shù)據(jù)。一般而言,模型訓(xùn)練的原始數(shù)據(jù)需要經(jīng)過嚴(yán)格的清洗、標(biāo)注與篩選,才能有效驅(qū)動模型性能提升。

面對20B、含噪聲、難對齊、模態(tài)缺失的原始數(shù)據(jù),優(yōu)必選構(gòu)建全流程自動化“精煉提純”流水線。通過“數(shù)據(jù)篩選”與“質(zhì)量評分”兩步,將其提純?yōu)?0M級別的高質(zhì)量數(shù)據(jù)。

為了找到高質(zhì)量數(shù)據(jù),其制定了規(guī)則快速從20B數(shù)據(jù)中過濾出約1%的候選數(shù)據(jù)池,然后引入大模型構(gòu)建多維度評分模塊,再次篩選出約1%的最高質(zhì)量數(shù)據(jù)。

基于此,優(yōu)必選為Thinker構(gòu)建了四種數(shù)據(jù)集,涵蓋空間和時(shí)間理解、自我視角推理、機(jī)器人操作規(guī)劃以及其內(nèi)部開發(fā)的工業(yè)數(shù)據(jù)集Industroplan。其中,Industroplan專注于工業(yè)環(huán)境中的多物體操作和運(yùn)輸任務(wù)。

拿下9榜第一!優(yōu)必選開源新基座模型,要破解具身智能落地最大難題

▲模型訓(xùn)練數(shù)據(jù)分布

接著是數(shù)據(jù)標(biāo)注環(huán)節(jié),其痛點(diǎn)在于人工標(biāo)注成本居高不下,且因具身智能的場景特性和數(shù)據(jù)本身的多維復(fù)雜性使得標(biāo)注難度不小,因此優(yōu)必選搭建了“弱監(jiān)督+自監(jiān)督+少量人工校驗(yàn)”的自動化標(biāo)注體系。

其通過大模型輔助標(biāo)注疊加多模型交叉驗(yàn)證,實(shí)現(xiàn)視覺場景分割、動作序列分類、指令意圖解析等任務(wù)的端到端自動化標(biāo)注。同時(shí),其會將人工參與率控制在1%以下, 僅對標(biāo)注置信度低于閾值的樣本進(jìn)行人工復(fù)核。最后,該機(jī)制還包括建立動態(tài)迭代優(yōu)化體系,把模型訓(xùn)練后的誤差反饋至標(biāo)注流水線,持續(xù)優(yōu)化標(biāo)注算法參數(shù)。

這樣一來,其就可以形成自動化標(biāo)注閉環(huán),且相較全人工標(biāo)注方案成本降低99%,標(biāo)注效率提升超百倍。

這一方案的核心價(jià)值在于,既依托高質(zhì)量數(shù)據(jù)筑牢大模型訓(xùn)練的核心根基,更讓Thinker模型的能力打磨深度貼合具身智能的實(shí)際落地場景,使其具備更強(qiáng)的實(shí)用價(jià)值與商業(yè)化落地潛力。

拿下9榜第一!優(yōu)必選開源新基座模型,要破解具身智能落地最大難題

Thinker模型的意義遠(yuǎn)不止于此,基于其技術(shù)積淀,優(yōu)必選還打通了數(shù)據(jù)回流機(jī)制,構(gòu)建起具身智能領(lǐng)域的數(shù)據(jù)飛輪:通過將技術(shù)方案深度部署于工廠搬運(yùn)、工件分揀等真實(shí)工業(yè)場景,把核心技術(shù)優(yōu)勢切實(shí)轉(zhuǎn)化為場景落地能力,同時(shí)讓場景端產(chǎn)生的真實(shí)數(shù)據(jù)持續(xù)反哺模型迭代進(jìn)化。

以工廠搬運(yùn)為例,系統(tǒng)持續(xù)收集實(shí)際作業(yè)中的長尾案例數(shù)據(jù),如料箱識別失敗、抓取軌跡動態(tài)調(diào)整等。這些真實(shí)場景數(shù)據(jù)直接反哺Thinker模型的訓(xùn)練,推動其自主進(jìn)化,不斷增強(qiáng)基礎(chǔ)性能與場景適應(yīng)能力。最終基于Thinker大模型,Walker S2可在箱體搬運(yùn)、工件分揀等下游應(yīng)用場景中實(shí)現(xiàn)99.99%的作業(yè)準(zhǔn)確率。

三、全鏈路優(yōu)化,訓(xùn)練策略適配具身智能通用需求

盡管獲取高質(zhì)量數(shù)據(jù)是訓(xùn)練具身智能大模型的關(guān)鍵,但優(yōu)必選之所以能憑借優(yōu)質(zhì)數(shù)據(jù)訓(xùn)出超越一眾主流模型的Thinker,核心還在于一套科學(xué)系統(tǒng)的模型訓(xùn)練策略。

更重要的是,其模型始終圍繞通用基座模型的定位展開,從源頭適配先進(jìn)且廣闊的具身智能生態(tài)建設(shè)需求。

Thinker的技術(shù)報(bào)告提到,該模型架構(gòu)包括四個模塊,文本分詞器、視覺編碼器、用于對齊視覺空間和語言空間的多層感知器以及大語言模型主干。

在具體的訓(xùn)練過程中,研究人員分成了兩個訓(xùn)練階段,以讓模型在復(fù)雜場景下也能有穩(wěn)定的規(guī)劃能力。

第一階段是專注于構(gòu)建模型的基礎(chǔ)感知和推理能力。研究人員結(jié)合通用數(shù)據(jù)集、空間理解數(shù)據(jù)集和大規(guī)模規(guī)劃數(shù)據(jù)集對Thinker進(jìn)行微調(diào),使其具備空間感知和推理能力為后續(xù)復(fù)雜場景下的任務(wù)對齊和長遠(yuǎn)規(guī)劃奠定基礎(chǔ)。

值得一提的是,研究人員還會視頻理解訓(xùn)練過程中將每個視頻片段的最后一幀作為輔助輸入,以進(jìn)一步提升模型性能。

拿下9榜第一!優(yōu)必選開源新基座模型,要破解具身智能落地最大難題

第二階段的重點(diǎn)是,對下游規(guī)劃任務(wù)進(jìn)行監(jiān)督式微調(diào),使模型推理能力與特定任務(wù)目標(biāo)保持一致。

研究人員對Industroplan-200K數(shù)據(jù)集進(jìn)行監(jiān)督式微調(diào),這一過程使模型能夠?qū)⑵鋸牡谝浑A段繼承的推理能力應(yīng)用于順序依賴關(guān)系、多樣化的對象布局以及糾錯反饋。

這使得Thinker能夠在真實(shí)的工業(yè)場景中生成可執(zhí)行的規(guī)劃方案,有效將空間理解與實(shí)際任務(wù)執(zhí)行聯(lián)系起來。

不論從訓(xùn)練數(shù)據(jù)的選擇、標(biāo)注還是到訓(xùn)練策略的設(shè)計(jì),Thinker均服務(wù)于其具身智能基座模型的核心定位。不同于單一功能型模型,優(yōu)必選憑借模塊化架構(gòu)、高效訓(xùn)練策略打造的模型具備通用化、高適配、強(qiáng)性能的核心能力

并且基于這一通用底座,開發(fā)者可靈活進(jìn)行二次開發(fā)、按需拓展,為搭建更先進(jìn)、更廣闊的具身智能生態(tài),筑牢可復(fù)用、可拓展、可協(xié)同的智能底座。

根據(jù)當(dāng)前行業(yè)發(fā)展的趨勢,Thinker這樣以開源為核心支撐的具身智能生態(tài)建設(shè)正穩(wěn)步推進(jìn),為人形機(jī)器人自主化水平的提升打開新的發(fā)展空間。

結(jié)語:瞄準(zhǔn)具身智能通用底座,優(yōu)必選加速打破技術(shù)壁壘

優(yōu)必選打造并開源的Thinker基座模型,相當(dāng)于為行業(yè)提供了一個通用、開放的技術(shù)底座,不同的科研團(tuán)隊(duì)可以基于這個底座,針對不同場景做個性化的模型開發(fā);不同的企業(yè)可以將自身的硬件、場景數(shù)據(jù)與基座模型對接,快速實(shí)現(xiàn)具身智能技術(shù)的落地應(yīng)用。

這種模式打破了技術(shù)之間的壁壘,讓行業(yè)資源得以高效整合。

具身智能的終極愿景是讓機(jī)器人走進(jìn)千行百業(yè)、融入人類生活,實(shí)現(xiàn)與人類的高效協(xié)作,這一目標(biāo)絕非單一功能模型、單一企業(yè)能實(shí)現(xiàn),也需要技術(shù)的持續(xù)迭代和形態(tài)的不斷進(jìn)化。而基座模型的生態(tài)化布局,恰好為這一長遠(yuǎn)愿景預(yù)留了充足的技術(shù)空間。