智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

擁有一款“鼻尖上的GPT”是一種什么體驗?

近期,杭州李未可科技公司推出了首款A(yù)I眼鏡Chat,支持用戶通過語音與眼鏡中的智能助手進(jìn)行交互,比如答疑解惑、日程安排、語音導(dǎo)航、英語翻譯等,都不在話下。

同時,這款A(yù)I眼鏡背后的多模態(tài)AI大模型平臺WAKE-AI也隨之開放。據(jù)悉,這是國內(nèi)首個面向AI眼鏡等可穿戴設(shè)備的大模型平臺,既支持李未可科技內(nèi)部團(tuán)隊做開發(fā),同時也為廣大AI開發(fā)者伙伴提供技術(shù)共享。

當(dāng)下,市面上已經(jīng)有豆包、Kimi等多款支持大模型語音交互的平臺,但它們大多以匹配PC、手機(jī)為主;WAKE-AI則率先切入AI眼鏡這一新形態(tài),試圖為用戶帶來更自然的交互、更人性化的陪伴、更場景化的精準(zhǔn)服務(wù)。

李未可科技創(chuàng)立于2021年10月,創(chuàng)立之初便聚焦“AI+AR”眼鏡賽道,公司成立僅三個月便拿下字節(jié)跳動的融資,其創(chuàng)始人茹憶曾是阿里AI實驗室智能終端負(fù)責(zé)人、天貓精靈硬件&產(chǎn)品總經(jīng)理,也是這波大模型浪潮中最具代表性的創(chuàng)業(yè)者之一。

“天貓精靈之父”創(chuàng)業(yè)打造「鼻尖上的GPT」,掃射豆包、Kimi盲區(qū)
▲李未可科技創(chuàng)始人兼CEO茹憶

當(dāng)下,隨著Ai Pin、Rabbit R1AI新硬件產(chǎn)品在國外嶄露頭角,掀起大模型智能終端的新風(fēng)口,國內(nèi)“天貓精靈之父”帶隊的新銳團(tuán)隊也交出了答卷,成為智能硬件產(chǎn)業(yè)關(guān)注的一個焦點。

AI智能眼鏡是否會成為一種主流的AI新硬件?面向“AI+終端”的多模態(tài)AI大模型平臺WAKE-AI有什么過人之處?通過對話李未可科技創(chuàng)始人兼CEO茹憶、AI首席架構(gòu)師莊博宇,本文對此進(jìn)行了深入探討。

一、在豆包、Kimi的射程盲區(qū),打造“鼻尖上的GPT”陪伴助手

盡管豆包、Kimi等各種大模型App風(fēng)靡手機(jī)端,但它們卻遲遲未攻入智能眼鏡等可穿戴設(shè)備。

背后的一大“攔路虎”是時延問題。莊博宇告訴智東西,用戶在眼鏡上對機(jī)器時延的容忍度比在手機(jī)上更低,1.8秒是一個容忍時間,如果超過這個時間點,用戶就會感到交互不流暢自然。然而,包括豆包等市面上的多個大模型落地眼鏡都需要5秒左右。

為此,李未可科技自研了WAKE-AI大模型平臺,試圖為用戶打造一個隨叫隨到的“鼻尖上的GPT”陪伴助手。

據(jù)悉,該平臺專門面向可穿戴設(shè)備等終端優(yōu)化研發(fā),能在500毫秒內(nèi)快速精準(zhǔn)地識別用戶指令,且將大模型實時回答反饋控制在2秒左右,具備文本生成、語言理解、圖像識別及視頻生成等多模態(tài)交互能力。

從體驗來說,這意味著用戶將可以在AI智能眼鏡上享受到自然流暢的AI交互,比如讓眼鏡搜索新聞、導(dǎo)航目的地或增加日程,都不會太費功夫。AI智能眼鏡可能取代手機(jī)的部分功能,讓用戶真正體驗到AI融入生活。

技術(shù)的一小步,用戶體驗的一大步。”茹憶說。從2016年3月阿爾法狗打敗李世石到2022年的12月份ChatGPT 發(fā)布,中間經(jīng)歷了六年六個月時間,AI算法架構(gòu)從CNN、BERT改進(jìn)到Transformer,模型參數(shù)擴(kuò)展帶來智能涌現(xiàn),茹憶對此感到很興奮,認(rèn)為這將為語音交互體驗帶來巨大提升。

與在上一波AI浪潮中押準(zhǔn)智能音箱風(fēng)口不同,這一次,茹憶認(rèn)為,眼鏡將成為AI落地的最佳載體之一。這與Meta首席科學(xué)家、圖靈獎得主楊立昆的觀點不謀而合,楊立昆在前不久也曾提到:“通過智能眼鏡訪問的AI助手是未來的趨勢。

“天貓精靈之父”創(chuàng)業(yè)打造「鼻尖上的GPT」,掃射豆包、Kimi盲區(qū)

面向這一趨勢,李未可科技近期推出的AI智能眼鏡Chat是其小試牛刀之作。

以低至699元的價格讓用戶低門檻地邁入AI體驗大門,Chat可以說非常親民。這款A(yù)I眼鏡的外形與日常佩戴的眼鏡幾乎沒有差異,但簡約卻不簡單,一個貼身陪伴助手的雛形已經(jīng)出現(xiàn)。

“天貓精靈之父”創(chuàng)業(yè)打造「鼻尖上的GPT」,掃射豆包、Kimi盲區(qū)

二、自研WAKE-AI大模型平臺,三大技術(shù)護(hù)城河打造交互新體驗

可以預(yù)測,大模型未來將重新定義智能眼鏡等可穿戴設(shè)備??纱┐髟O(shè)備將不再只是工具,而是好像有一個真人助理在用戶旁邊,或者一個虛擬人在用戶鼻尖上的眼鏡里,幫用戶解決各種復(fù)雜的問題。

WAKE-AI大模型平臺推出的意義,則是將大模型運用到AI硬件設(shè)備上的諸多暢想落地實際,不僅實現(xiàn)更自然的交互,還帶來更人性化的陪伴,更精準(zhǔn)的服務(wù)。

那么從技術(shù)角度來看,WAKE-AI大模型平臺究竟有什么過人之處?

據(jù)悉,李未可科技通過三種方式提升WAKE-AI大模型平臺的效果:

第一,使用定向優(yōu)化的分發(fā)大模型,幫助AI助手能快速地分發(fā)用戶的指令,打造更自然的交互。

第二,基于情感大模型,使用戶和設(shè)備產(chǎn)生深度信任,讓AI助手形成更有溫度的陪伴。

第三,針對室外場景需要大量的數(shù)據(jù),使用多模態(tài)的VQA(視覺問答)模型,讓用戶可以指哪問哪,獲得更精準(zhǔn)的服務(wù)。

1、分發(fā)大模型+Agent,讓交互更自然

作為一款C端產(chǎn)品,AI智能眼鏡的交互體驗被李未可科技放在首位。WAKE-AI大模型平臺能提供更豐富的交互功能,同時耗時比同行更低。

莊博宇談道,比如當(dāng)用戶與豆包語音聊天,往往需要2秒才能完成語音交互,時間主要花在語音與文本相互轉(zhuǎn)化及大模型推理上。但這一交互體驗僅限于聊天,而不能執(zhí)行網(wǎng)絡(luò)搜索、導(dǎo)航等更復(fù)雜的任務(wù)。

但是,基于WAKE-AI大模型平臺,用戶在AI智能眼鏡上調(diào)用大模型的時延大大降低,一般對話時延控制在1.8秒左右、2秒以內(nèi);同時,用戶還可以體驗主動搜索、語音導(dǎo)航、眼鏡操控等多樣化的功能,復(fù)雜的交互反應(yīng)也能縮短至3-5秒。

背后,李未可科技團(tuán)隊使用分發(fā)大模型,通過語音輸入來快速分發(fā)用戶意圖,為用戶提供反饋;同時,大模型支持不同的AI Agent的能力,能快速執(zhí)行用戶的導(dǎo)航、買票、備忘錄等可能存在的剛需意圖。

“天貓精靈之父”創(chuàng)業(yè)打造「鼻尖上的GPT」,掃射豆包、Kimi盲區(qū)

此外,團(tuán)隊也在降噪技術(shù)、收音、ASR(自動語音識別)技術(shù)等方面也做了大量優(yōu)化,從而使得用戶能與智能助手更絲滑地進(jìn)行交互。

2、情感大模型+超擬人TTS,讓陪伴更人性化

茹憶和莊博宇都提到了《她》(Her)這部科幻電影,片中的機(jī)器人由于與主人公建立了情感連接,從而能進(jìn)行更有深度的聊天和陪伴,這是李未可科技希望打造的智能助手的一個理想形態(tài)。

基于這樣的愿景,李未可科技與市面上同行的一大差異化是做情感搭配。

為了讓AI眼鏡產(chǎn)品具備更擬人化的特征,李未可科技團(tuán)隊一是基于情感大模型研發(fā)了長記憶系統(tǒng)、情感類的Agent,二是打磨了擬人化的TTS(文本轉(zhuǎn)語音)技術(shù),以此打造用戶能夠天天使用AI智能眼鏡的核心基礎(chǔ)

“天貓精靈之父”創(chuàng)業(yè)打造「鼻尖上的GPT」,掃射豆包、Kimi盲區(qū)

在情感大模型方面,對標(biāo)國內(nèi)外的Claude等相關(guān)模型,莊博宇及其團(tuán)隊發(fā)現(xiàn)了一個行業(yè)核心的問題:大模型的記憶力是有上限的,不利于長時間陪伴用戶。

為此,李未可科技團(tuán)隊通過核心記憶長期記憶,不斷更新用戶的畫像,從而使得智能助手在對話中能夠更充分地理解用戶想要什么,更懂用戶。

而在打造擬人化的語氣方面,目前市面上能上線情感表述的文本轉(zhuǎn)語音TTS能力的廠家并不多,因為它有一個延時的考量,AI抽取、理解和表述會耗費大量的時間,所以速度上面需要優(yōu)化;第二是成本上的優(yōu)化,比如豆包雖然在App上能夠提供情感表達(dá),但它并沒有把這個API能力開放出來,智能終端廠商無法獲取。

但是,李未可科技率先將超擬人TTS上線,把它輕量化到時延和成本都可承受的范圍,然后開放出來,供自己的團(tuán)隊和合作伙伴使用。

3、多模態(tài)+LBS能力,讓服務(wù)更精準(zhǔn)

多模態(tài)大模型+LBS(基于位置的服務(wù))會產(chǎn)生什么樣的化學(xué)反應(yīng)?

李未可科技已經(jīng)找到了驗證場景。Citywalk(城市漫步)是當(dāng)下備受年輕人青睞的室外項目,多模態(tài)大模型可以讓Citywalk的人做到“指哪兒問哪兒”,比如指著岳王廟里的碑問“碑上寫的到底是什么”,一套精準(zhǔn)的智能導(dǎo)覽服務(wù)就誕生了。

據(jù)悉,李未可科技已經(jīng)打造了“旅游助手+城市漫游系統(tǒng)”,核心是數(shù)據(jù)內(nèi)容,以景區(qū)作為核心供給,現(xiàn)在大概有2000多個景區(qū)數(shù)據(jù)。

結(jié)合這些景區(qū)數(shù)據(jù),團(tuán)隊已經(jīng)打造了景點游玩導(dǎo)覽、自動巡航系統(tǒng)、地點彈幕等多個服務(wù),而多模態(tài)大模型的加持則讓“指哪兒問哪兒”、自動生成路線、自動生成游記等更多豐富功能涌現(xiàn),從而為用戶提供更精準(zhǔn)的服務(wù)。

“天貓精靈之父”創(chuàng)業(yè)打造「鼻尖上的GPT」,掃射豆包、Kimi盲區(qū)

莊博宇告訴智東西,大模型使得原本碎片化的場景走向大一統(tǒng),從而使精準(zhǔn)服務(wù)的成本大大降低。一方面,WAKE-AI大模型可以更好地理解和消化海量的景區(qū)數(shù)據(jù),另一方面,Agent可以對數(shù)據(jù)進(jìn)行更加自動化地處理,這使得團(tuán)隊能夠在精準(zhǔn)度和信息數(shù)量基礎(chǔ)上提供更好的服務(wù)。

可以看到,通過從模型了解意圖、搜索資料、轉(zhuǎn)化風(fēng)格、分析情緒、轉(zhuǎn)化聲音的各個環(huán)節(jié)去做優(yōu)化,李未可科技試圖打造交互更自然、陪伴更人性化和服務(wù)更精準(zhǔn)的AI眼鏡設(shè)備,從而交出其大模型應(yīng)用創(chuàng)業(yè)的“答卷”。

三、Meta蘋果看中的新賽道,“天貓精靈之父”帶領(lǐng)國產(chǎn)搶跑

當(dāng)下,已經(jīng)有不少大廠盯上了“AI+AR”眼鏡賽道。比如Meta與雷朋合作的AI智能眼鏡已經(jīng)在測試多模態(tài)大模型,并在近期宣布將推出首副“AI+AR”眼鏡;蘋果近期也傳出正研究端側(cè)大模型,可能將落地Vision Pro……

與此同時,也有一些知名企業(yè)似乎在抽火。比如近期OPPO被傳出了暫停XR探索,相關(guān)人員將轉(zhuǎn)向AI設(shè)備方向的開發(fā),或許意味著其“AI+XR”眼鏡業(yè)務(wù)踩下了剎車。

對此,茹憶認(rèn)為這是由于產(chǎn)業(yè)發(fā)展仍處于初級階段,大家還未形成共識。這就考驗創(chuàng)業(yè)者對事情的認(rèn)知,以及如何與自身優(yōu)勢做結(jié)合。

站在李未可科技的角度來看,“AI+AR”眼鏡的發(fā)展已經(jīng)處于一個臨界點,即將突破用戶體驗差,為此團(tuán)隊進(jìn)行了積極布局。

李未可科技打法的一大特點是不強(qiáng)行創(chuàng)造出一種產(chǎn)品形態(tài),而是在已存在的產(chǎn)品上進(jìn)行AI升級,從而在存量市場基礎(chǔ)上拓展出新的增量市場。根據(jù)知名數(shù)據(jù)分析機(jī)構(gòu)Statista數(shù)據(jù),2023年全球眼鏡市場總規(guī)模超1400億美元,2015-2025年全球眼鏡市場規(guī)模從1183 億美元提升至1552億美元

“未來我們的眼鏡都會智能化,就像手表智能化一樣?!比銘浾f,“它的標(biāo)志是體驗成本大大降低,用戶買一副AI智能眼鏡和買一副傳統(tǒng)眼鏡價格也差不多,那為什么不買一個AI智能眼鏡?現(xiàn)在手表就是這樣?!?/p>

AI智能眼鏡市場的發(fā)展壯大需要生態(tài)共融。目前,李未可科技已經(jīng)將WAKE-AI大模型平臺面向伙伴開放,與伙伴一起來建設(shè)AR眼鏡+AI能力、在室外等多個場景的生態(tài)。

“天貓精靈之父”創(chuàng)業(yè)打造「鼻尖上的GPT」,掃射豆包、Kimi盲區(qū)

結(jié)語:大模型卷入設(shè)備端,AI智能眼鏡或成室外最佳載體

當(dāng)下,大模型加速落地端側(cè),我們可以看到AI PC、AI手機(jī)、AI智能眼鏡以及各色的AI新硬件如雨后春筍般冒了出來。憑借便攜、可擴(kuò)展等多重優(yōu)勢,眼鏡或許成為大模型在室外落地的一大最佳載體。

現(xiàn)階段大模型在端側(cè)落地應(yīng)用仍處于初級階段??梢灶A(yù)測,未來云邊端異構(gòu)架構(gòu)將發(fā)展得更加龐雜,同時多模態(tài)交互變得更加豐富,這對速度、性能和成本的平衡會提出新的要求,也將成為AI硬件賽道玩家需要直面的新挑戰(zhàn)。