智東西(公眾號:zhidxcom)
作者 | 周炎
編輯 | 云鵬
近期,亞馬遜宣布,計(jì)劃將其智能語音助手Alexa接入其自研的大模型Alexa Teacher Model,這是繼小度和天貓精靈后又一個(gè)接入大模型的語音助手。9年前,以Alexa智能語音助手衍生出來的智能音箱Echo曾創(chuàng)造了傲人的成績,不僅被稱為“品類開創(chuàng)者”,還被視作“谷歌與蘋果的學(xué)習(xí)對象”。
而在今年2月,據(jù)美國科技媒體Business Insider報(bào)道,亞馬遜旗下的Alexa去年虧損100億美元(折合人民幣約693億元),Alexa硬件團(tuán)隊(duì)在去年年底遭遇了大裁員。
在生成式AI火爆的當(dāng)下,像亞馬遜一樣尋求新變量的智能硬件廠商不在少數(shù),他們紛紛將生成式AI引入自家智能硬件中,以期提升原有智能硬件的交互體驗(yàn)、使產(chǎn)品能夠在更廣泛的場景下服務(wù)用戶。
目前來看,調(diào)用ChatGPT服務(wù)到智能硬件產(chǎn)品上,可以通過REST API、SDK或者Webhooks等方式,繼而實(shí)現(xiàn)自然語言處理(NLP)、聊天機(jī)器人(Chatbot)等功能。接入ChatGPT的智能硬件可以用于自動客服、聊天機(jī)器人、自動文本生成、自動問答等應(yīng)用場景。
當(dāng)下,Humane等AI創(chuàng)企已先行一步推出AI可穿戴設(shè)備,百度、阿里、谷歌等巨頭憑借自身在大模型上的積累和技術(shù)優(yōu)勢已將生成式AI融合進(jìn)智能硬件中,創(chuàng)維數(shù)字、美的等智能家居品牌也宣布將推出搭載類ChatGPT的智能硬件產(chǎn)品。
智能硬件的“第二春”似乎到來了,然而生成式AI如何賦能智能硬件,搭載生成式AI技術(shù)的智能硬件產(chǎn)品在規(guī)模量產(chǎn)前還面臨著哪些問題,我們試圖通過目前各類智能硬件玩家的最近動作來找到答案。
一、ChatGPT前夜,智能硬件廠商陷入困局
像VR/AR設(shè)備、可穿戴設(shè)備、智能家居產(chǎn)品這樣的智能硬件在2022年似乎格外不好賣。
而在銷售的另一頭,生產(chǎn)智能硬件也絕非容易。2013年,作為一個(gè)即將興起的領(lǐng)域,智能硬件市場等待著產(chǎn)業(yè)鏈成熟,也等著一個(gè)真正的爆品出現(xiàn)。
2014年,亞馬遜推出基于Alexa的智能音箱Echo,智能硬件市場也經(jīng)歷了一場創(chuàng)投熱潮。彼時(shí),智能硬件產(chǎn)品開始在市場上涌現(xiàn),但是多數(shù)智能硬件僅僅是實(shí)現(xiàn)App的控制,并沒有找到用戶的痛點(diǎn),沒有辦法讓用戶能夠真正形成使用意愿,一些用戶出于新鮮感購買智能硬件產(chǎn)品,但是產(chǎn)品用戶粘性很弱。

▲亞馬遜Echo第一代智能音箱
據(jù)騰訊科技不完全統(tǒng)計(jì)顯示,截止2015年,完成A輪融資的智能硬件公司接近300家,而完成B輪僅有20家,90%的初創(chuàng)公司都在“戰(zhàn)場”上死去。而在2016年,更是有3000多家智能硬件企業(yè)注銷關(guān)停。2017年,堅(jiān)果智能影院董事長胡震宇曾說:“98%做智能硬件的都死了,我是那2%的幸存者”。
慘淡的市場、失意離開的玩家、不夠智能的產(chǎn)品構(gòu)成了“ChatGPT前夜”智能硬件領(lǐng)域的概貌。廠商們期盼著新技術(shù)的出現(xiàn)”拯救”陷入困局的智能硬件。
二、元宇宙沒能帶火VR/AR設(shè)備市場,生成式AI會是新風(fēng)口嗎?
在ChatGPT之前,“元宇宙”曾帶給制造VR/AR設(shè)備的智能硬件廠商希望。Meta、微軟、索尼、字節(jié)跳動都曾下注號稱是“虛擬世界入口”的VR/AR設(shè)備。
但VR/AR設(shè)備的成績單并非“亮眼”,甚至可以說有些“慘淡。市場研究機(jī)構(gòu)IDC發(fā)布的數(shù)據(jù)顯示,2022年全球VR/AR設(shè)備出貨量下降20.9%。與之前幾年相比,VR/AR設(shè)備市場的頹勢顯而易見,功能缺乏創(chuàng)新、性價(jià)比遭受質(zhì)疑。
目前,使用生成式AI推動AR設(shè)備功能創(chuàng)新的是一家德國智能眼鏡開發(fā)商Innovation Eyewear,上月中旬它宣布推出首款支持ChatGPT的智能眼鏡,用戶可以使用眼鏡內(nèi)置的麥克風(fēng)向ChatGPT提問,ChatGPT生成的內(nèi)容,會通過Siri或者谷歌語音來傳遞給用戶。Innovation Eyewear CEO哈里森·格羅斯稱,目前這款眼鏡不僅可以自動翻譯用戶所說的話,還能成為用戶的移動學(xué)習(xí)系統(tǒng),當(dāng)用戶有疑問的時(shí)候,只需連接到ChatGPT上,就能獲得相關(guān)主題研究資料庫。
雖然Snap也在財(cái)報(bào)中透露,公司計(jì)劃用生成式AI技術(shù)驅(qū)動智能眼鏡,但它一直沒有推出使用生成式AI驅(qū)動的AR眼鏡。反而不是智能硬件廠商的斯坦福大學(xué)最近有了智能硬件方面的新進(jìn)展。他們的研究人員在上月下旬開發(fā)出“rizzGPT”,并打造了可與ChatGPT實(shí)時(shí)對話的AR單片眼鏡。簡單來說,該眼鏡利用OpenAI的自動語音識別工具Whisper來聆聽用戶的講話,當(dāng)獲取到講話內(nèi)容后,GPT-4就會自動生成響應(yīng),AR開源設(shè)備Brilliant Monocle還會將上述的響應(yīng)內(nèi)容疊加在用戶真實(shí)世界環(huán)境之中。當(dāng)進(jìn)行求職面試或者公開演講時(shí),這款眼鏡還會指導(dǎo)用戶接下來說什么,幫助用戶更好地面對高壓場景。

▲可與ChatGPT實(shí)時(shí)對話的AR單片眼鏡
可以看到,無論是還是德國眼鏡商Innovation Eyewear推出的“行走的研究資料庫”,還是斯坦福大學(xué)針對當(dāng)下用戶容易產(chǎn)生社交焦慮而設(shè)計(jì)的“語言指導(dǎo)”AR眼鏡都在解決真實(shí)場景下的用戶所關(guān)心的問題,AR眼鏡的實(shí)用性得到了加強(qiáng)。
雖然此前,元宇宙為VR/AR設(shè)備造起了極大的“聲勢”,但彼時(shí)智能硬件廠商們一直沒有給用戶一個(gè)“必須要買VR/AR設(shè)備”的理由。所謂的“未來虛擬世界入口”也離普通用戶太遠(yuǎn)。而目前入局生成式AI賦能VR/AR設(shè)備的玩家,正在為VR/AR設(shè)備找到合適的應(yīng)用場景,也努力在為用戶提供“必須要買VR/AR設(shè)備”的理由。
三、不做“智能手機(jī)附庸”,生成式AI或拓展可穿戴設(shè)備應(yīng)用場景
與VR/AR設(shè)備相比,智能手表、智能手環(huán)等可穿戴設(shè)備在不斷迭代中以“運(yùn)動”和“健康監(jiān)測”可為用戶提供了購買理由。但這依舊沒有阻擋住可穿戴設(shè)備的市場頹勢。市場研究機(jī)構(gòu)Canalys發(fā)布的報(bào)告顯示,2022年全球智能可穿戴設(shè)備出貨量下滑5%,只計(jì)算四季度的話,出貨量更是低至5000萬件,同比大跌18%。
其中很大一部分原因是,智能手表等并非想象之中如此“智能”,它必須通過連接智能手機(jī)才能夠?qū)崿F(xiàn)功能的推展,處于“手表+手機(jī)”的尷尬處境,智能手表在很大程度上還是智能手機(jī)的附庸。
在逃離做“智能手機(jī)附庸”這件事情上,蘋果前高管伊姆蘭·喬杜里(Imran Chaudhri)為其他可穿戴設(shè)備制造商開了一個(gè)好頭。近期,他開辦的AI初創(chuàng)企業(yè)Humane推出了一款A(yù)I可穿戴設(shè)備,無需與智能手機(jī)相連,就可實(shí)現(xiàn)無屏幕接打電話、自動生成會議摘要,還能充當(dāng)智能健康助手。
伊姆蘭·喬杜里曾任蘋果人機(jī)交互界面團(tuán)隊(duì)的設(shè)計(jì)總監(jiān)。他對生產(chǎn)一款面向消費(fèi)者的智能可穿戴產(chǎn)品有著極高的熱情。

▲伊姆蘭·喬杜里和妻子合照
今年年初,這款A(yù)I可穿戴設(shè)備的背后的專利——“可穿戴設(shè)備和云計(jì)算平臺與激光投影系統(tǒng)”被媒體扒出。仔細(xì)分析專利圖紙,或許可以幫助我們想象未來智能硬件產(chǎn)品的形態(tài)與功能。
如此之長的專利名稱泄露出了這款設(shè)備的關(guān)鍵器件。除AI外,它還配備了3D深度傳感器、Goolge lens、激光投影系統(tǒng)等。從工作流程來看,首先,3D深度傳感器識別用戶手勢指令,接下來它會將捕捉的多媒體數(shù)據(jù)上傳至云端。這時(shí)AI便會分析上下文,并將多媒體數(shù)據(jù)轉(zhuǎn)化為圖像、視頻、音頻等格式,最后,激光投影系統(tǒng)會把圖像、視頻等投射在物體表面。
或許這么說來有些抽象,伊姆蘭·喬杜里的現(xiàn)場演示或許可以幫助我們更好地理解這一流程。現(xiàn)場中,由于該設(shè)備較小,他將設(shè)備夾在夾克口袋上,然后對設(shè)備發(fā)出了“翻譯”的手勢指令,接著他說了一段話,3D深度傳感器將捕捉的音頻數(shù)據(jù)傳到云端,AI通過分析然后生成了他所說的這段話的法語版。不僅如此,他還用這個(gè)3D深度傳感器掃描了巧克力棒的信息,AI隨后為伊姆蘭·喬杜里提出了健康建議。最讓人驚喜的操作是,伊姆蘭·喬杜里還將原本應(yīng)該在屏幕上的內(nèi)容投射到手里,然后在無屏幕的情況下,與妻子打了一通電話。

▲伊姆蘭·喬杜里和妻子在無屏幕的狀態(tài)下進(jìn)行通話
Goolge lens的功能沒有在演示中呈現(xiàn),但專利圖紙中卻為我們勾畫了一個(gè)場景:用戶在修理汽車引擎的時(shí)候,Goole lens會將汽車引擎轉(zhuǎn)化成一個(gè)虛擬模型,然后再對虛擬模型中的各元件進(jìn)行識別,之后各元件功能信息以及修理步驟會通過過激光投影系統(tǒng)投射在汽車引擎表面,指導(dǎo)用戶如何修理。如此看來,這些功能如果可以落地,將會使可穿戴設(shè)備逃離“智能手機(jī)附庸”的命運(yùn),同時(shí)還將會極大地拓展可穿戴設(shè)備的應(yīng)用場景。
四、生成式AI或成智能家居“產(chǎn)品經(jīng)理”,5-10年AI大模型將用于通用機(jī)器人
比起VR/AR設(shè)備和智能可穿戴設(shè)備,大家可能容易忽視的是,智能家居才是AI最早應(yīng)用的領(lǐng)域之一。億歐智庫發(fā)布的報(bào)告曾分析出AIoT發(fā)展的三個(gè)階段,也就是從“單機(jī)智能”到“互聯(lián)智能”再到未來的“主動智能”,那時(shí),智能系統(tǒng)可以根據(jù)用戶行為偏好、用戶畫像、環(huán)境等各類信息,隨時(shí)待命,并具有自學(xué)習(xí)、自適應(yīng)、自提高能力,可主動提供適用于用戶的服務(wù)。
這聽起來讓人興奮,但事實(shí)上,智能家居產(chǎn)品目前還很不“智能”。IDC發(fā)布的最新報(bào)告顯示,2022年全球智能家居產(chǎn)品出貨量下降2.6%,降至8.74億臺。

▲2022年全球智能家居設(shè)備出貨量情況,來源:IDC
造成這種情況非常關(guān)鍵的一點(diǎn)就是,智能家居產(chǎn)品目前交互體驗(yàn)較差。ChatGPT的融入將會彌補(bǔ)這種情況,那時(shí)用戶下達(dá)多個(gè)指令,系統(tǒng)可以在分析理解后分步執(zhí)行。Josh.ai家庭自動化系統(tǒng)的聯(lián)合創(chuàng)始人Alex Capecelatro曾指出:“如果我們不采用類ChatGPT技術(shù),像我們這樣的企業(yè)將不復(fù)存在?!?/p>
目前,創(chuàng)維數(shù)字已經(jīng)在智能機(jī)頂盒領(lǐng)域發(fā)力,它計(jì)劃將逐步融合AI、物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)技術(shù),并結(jié)合NLP和CV等AIGC等相關(guān)應(yīng)用系統(tǒng),最后使智能機(jī)頂盒不僅可以提供電視直播服務(wù),還能成為智慧家居的智能控制中心。創(chuàng)維數(shù)字目前計(jì)劃接入百度文心一言大模型,推出創(chuàng)維小度盒子。國光電器在互動平臺回答投資者提問時(shí)也指出,計(jì)劃于今年推出搭載類ChatGPT的智能硬件產(chǎn)品。
雖然現(xiàn)在還沒有使用生成式AI技術(shù)的智能家居“爆品”出現(xiàn),但可以預(yù)見的是,未來,生成式AI模型可以通過反饋式學(xué)習(xí)、聯(lián)想和記憶能力,充當(dāng)智能家電的”產(chǎn)品經(jīng)理“,從而使智能家居產(chǎn)品不再拘泥于固定程序交互的情況,進(jìn)一步提升產(chǎn)品的智能化程度。
與其他智能硬件市場當(dāng)下慘淡現(xiàn)狀有所不同,中國機(jī)器人產(chǎn)業(yè)聯(lián)盟發(fā)布的最新數(shù)據(jù)顯示,2022年,中國工業(yè)機(jī)器人整體銷量預(yù)計(jì)超30萬臺,全球銷量占比超過50%,雖然增速較2021年放緩,但是全球市場中占比依舊增長。
今年2月,美的集團(tuán)宣布將接入百度文心一言大模型,美的家庭服務(wù)機(jī)器人也將優(yōu)先內(nèi)測和試用文心一言的諸多能力。就在3月,谷歌發(fā)布了一個(gè)基于名為PaLM-E的大模型的機(jī)器人樣機(jī),目前該機(jī)器人可以按照人類指令拿零食和可樂。
將大模型接入智能機(jī)器人計(jì)劃說得比較詳細(xì)的是阿里巴巴。在今年第六屆數(shù)字中國建設(shè)峰會上,阿里巴巴CEO張勇稱,阿里云工程師正在將千問大模型接入工業(yè)機(jī)器人。按工程師的話來講,千問大模型將會為機(jī)器人執(zhí)行任務(wù)提供了推理決策的能力,也就是說,當(dāng)一線工人真正操作這個(gè)機(jī)器人時(shí),他只需發(fā)送文字,千問大模型就可以在理解意圖的基礎(chǔ)上進(jìn)行任務(wù)推理,并自動翻譯成機(jī)器可以理解的代碼,指揮機(jī)器執(zhí)行任務(wù)。但比較遺憾的是,目前阿里仍沒有發(fā)布樣機(jī)。
近期,國盛證券對大模型接入智能機(jī)器人具體時(shí)間作出研判,它研報(bào)中指出,大模型在1-5年內(nèi),能夠應(yīng)用于行業(yè)化機(jī)器人等領(lǐng)域。展望5-10年后的發(fā)展,隨著復(fù)雜多模態(tài)方案的成熟,AI大模型或?qū)⒛軌驊?yīng)用于通用機(jī)器人。
五.生成式AI賦能智能硬件,落地背后的四重挑戰(zhàn)
梳理來看,目前基于大模型的AI硬件大多還都處于概念階段,真正的產(chǎn)品并不多。Humane推出的AI可穿戴設(shè)備只向公眾做了功能演示,谷歌基于PaLM-E大模型的機(jī)器人也只是發(fā)了樣機(jī),而且從視頻來看,這個(gè)機(jī)器人樣機(jī)執(zhí)行指令十分遲緩。

▲谷歌發(fā)布基于PaLM-E大模型的機(jī)器人樣機(jī)
那為什么會造成這種情況呢?這就不得不從智能硬件本身討論起來。比起軟件開發(fā),智能硬件的制造更加復(fù)雜,這其中需要經(jīng)歷工業(yè)設(shè)計(jì)、軟件開發(fā)、云服務(wù)搭建、開膜、銷售等一系列的過程。對于廠商來說,制造智能硬件不僅成本高、時(shí)間長,而且盈利還難以預(yù)估。更重要的是,硬件的生產(chǎn)還涉及到供應(yīng)鏈渠道體系,如果不能形成規(guī)?;纳a(chǎn),供應(yīng)鏈可能就會不支持,這就造成產(chǎn)品成本的居高不下。
而就生成式AI賦能智能硬件落地而言,首先要面臨的問題就是大模型訓(xùn)練的成本極高。創(chuàng)維數(shù)字、美的等計(jì)劃接入大模型的公司無疑要支付一大筆費(fèi)用。
其次,在接入智能云大模型平臺后,由于平臺有大量的API接口訪問,這就可能會帶來較長的時(shí)延,進(jìn)而影響硬件產(chǎn)品的交互體驗(yàn)。再次,硬件廠商還要遵守國家相關(guān)政策,保護(hù)好用戶數(shù)據(jù)安全。
最后,對于智能機(jī)器人這個(gè)品類來說,還面臨著平衡商業(yè)機(jī)密與編程效率間關(guān)系兩難問題。簡單來說,大語言模型的動作指令代碼生成依賴于動作環(huán)節(jié)的可拆解、可輸入、可訓(xùn)練,編程效率提高就需要數(shù)據(jù)要盡可能開源、生產(chǎn)工藝要盡可能標(biāo)準(zhǔn)化,但一旦動作過程涉及商業(yè)機(jī)密,將存在訓(xùn)練數(shù)據(jù)泄漏的風(fēng)險(xiǎn)。
結(jié)語:生成式AI或?yàn)橹悄苡布袌鰩硇罗D(zhuǎn)機(jī)
從市場研究機(jī)構(gòu)發(fā)布的關(guān)于VR/AR設(shè)備、可穿戴設(shè)備、智能家居的報(bào)告來看,智能硬件市場呈現(xiàn)頹勢,這種情況不單單是受宏觀經(jīng)濟(jì)的影響,還在于這些智能硬件本身功能缺乏創(chuàng)新、缺乏殺手級應(yīng)用等等。
在生成式AI的浪潮下,智能硬件廠商開始布局將生成式AI融進(jìn)產(chǎn)品功能或產(chǎn)品生產(chǎn)中去,這將還有助于一部分的智能硬件“重獲生機(jī)”。
但是目前僅有極少數(shù)玩家推出了基于生成式AI的硬件產(chǎn)品,大多數(shù)企業(yè)還都停留在概念階段,同時(shí)這些硬件廠商也面臨著一些問題,需要不斷進(jìn)行解決。