智東西(公眾號:zhidxcom)
編輯 | 李水青

智東西6月21日消息,近日GTIC 2021嵌入式AI創(chuàng)新峰會在北京圓滿收官!在這場全天座無虛席、全網(wǎng)直播觀看人數(shù)逾150萬次的高規(guī)格AI產(chǎn)業(yè)峰會上,來自產(chǎn)業(yè)鏈上下游的16位大佬共聚一堂,圍繞嵌入式AI的軟硬件生態(tài)創(chuàng)新、家居AIoT、移動機(jī)器人和工業(yè)制造產(chǎn)業(yè)4大版塊地圖,帶來了深入淺出的分享。

會上,極智嘉研發(fā)總監(jiān)陳超帶來了題為《物流機(jī)器人視覺感知技術(shù)的挑戰(zhàn)與創(chuàng)新》的演講。演講主要包含三部分:物流與物流機(jī)器人,倉儲與工業(yè)兩種不同場景下物流機(jī)器人在視覺方面面臨的挑戰(zhàn)與解法。

物流行業(yè)是一個巨大市場,但行業(yè)長期面臨用人難、市場需求變化快等痛點(diǎn)。物流機(jī)器人在這樣的背景下應(yīng)運(yùn)而生,目前已經(jīng)演化出智能分揀、智能搬運(yùn)、智能叉車、智能倉儲等多場景的產(chǎn)品形態(tài),并在眾多實(shí)際場景中落地。

陳超回顧,在極智嘉物流機(jī)器人落地行業(yè)過程中,在視覺感知技術(shù)方面克服了眾多挑戰(zhàn)。

在倉儲AMR移動機(jī)器人領(lǐng)域,場景相對簡單,主要包括貨架到人的揀選和貨箱到人的揀選兩大場景。針對用于導(dǎo)航的地面二維碼,團(tuán)隊遇到了污損/反光、運(yùn)動模糊等問題,以及成本降低的訴求。為此,極智嘉在最新機(jī)器人上引入了基于地紋融合的V1.5,彌補(bǔ)二維碼易污損的問題;更進(jìn)一步,極智嘉基于Marker-Net的V2.0解決方案將故障率降低兩個數(shù)量級。

在工業(yè)AMR移動機(jī)器人領(lǐng)域,面臨的場景和挑戰(zhàn)也更加復(fù)雜多樣。比如,針對行業(yè)樣本少的問題,極智嘉采取學(xué)習(xí)仿真方案,快速擴(kuò)充樣本;針對未知目標(biāo)檢測問題,極智嘉引入深度相機(jī),使得深度學(xué)習(xí)模型有機(jī)結(jié)合深度數(shù)據(jù),提高目標(biāo)檢測性能。

而針對魯棒性要求高的問題,極智嘉采用復(fù)合模型方法;面對高動態(tài)場景下的定位難題,采用地圖更新和語義地圖,從而保證機(jī)器人長期穩(wěn)定運(yùn)行;針對端側(cè)設(shè)備低算力的問題,極智嘉通過算法優(yōu)化及加速引擎來突破算力限制。

可以看到,作為自2015年就成立的物流機(jī)器人頭部企業(yè),極智嘉已經(jīng)針對倉儲及工業(yè)特定應(yīng)用場景,攻克了嵌入式AI開發(fā)的一座座山頭。

我們將陳超演講實(shí)錄整理為以下三部分:

一、物流行業(yè)占GDP超10%,物流機(jī)器人應(yīng)運(yùn)而生

關(guān)于物流,除了普通消費(fèi)者經(jīng)常接觸到的快遞物流之外,還包括倉儲物流、工廠物流等細(xì)分的物流場景。物流是一個非常龐雜的復(fù)合型產(chǎn)業(yè),在GDP中占比超10%,可以說物流為整個社會的生產(chǎn)生活物資供應(yīng)提供了保障。

近年來物流業(yè)面臨著挑戰(zhàn):首先是用人難的問題。其實(shí)每個人的身邊都可以明顯感覺到這些年來整個社會的老齡化與少子化的趨勢。適齡勞動人口正在逐漸減少,與此同時,現(xiàn)在的年輕人也更傾向于去大城市從事服務(wù)型的工作,不愿意下到工廠倉庫里面做一些底層枯燥的物流類的工作,給物流相關(guān)企業(yè)的招聘造成一定的困難。

另一方面,物流業(yè)變化快。隨著整個經(jīng)濟(jì)的發(fā)展,居民的消費(fèi)升級目前大規(guī)模標(biāo)準(zhǔn)的工業(yè)化生產(chǎn)產(chǎn)品越來越少,更多是高度定制化、個性化的小批量產(chǎn)品生產(chǎn),現(xiàn)在產(chǎn)品的迭代速度更快,升級更頻繁,對于供應(yīng)鏈提出新的挑戰(zhàn)。

極智嘉研發(fā)總監(jiān)陳超:物流業(yè)占GDP10%,物流機(jī)器人視覺感知面臨挑戰(zhàn)

物流機(jī)器人在這樣的背景下應(yīng)運(yùn)而生。

由于物流涉及的面比較廣,在不同的環(huán)節(jié)、方面也會有不同的機(jī)器人和解決方案。(物流機(jī)器人)主要用在一些快遞領(lǐng)域的智能分揀、電商倉庫里的智能揀選,還有制造業(yè)產(chǎn)線上的智能搬運(yùn)機(jī)器人、智能叉車,集成解決方案智能倉和智慧工廠……下面,我們通過具體的機(jī)器人了解一下。

極智嘉的產(chǎn)品全家福,涵蓋了絕大多數(shù)物流機(jī)器人的品類。包括前排的低矮潛伏式的揀選機(jī)器人和搬運(yùn)式機(jī)器人,以及中間的分揀機(jī)器人和料箱揀選機(jī)器人,以及后排高大的無人叉車、人機(jī)協(xié)作機(jī)器人、帶有機(jī)械臂的復(fù)合機(jī)器人。

極智嘉研發(fā)總監(jiān)陳超:物流業(yè)占GDP10%,物流機(jī)器人視覺感知面臨挑戰(zhàn)

在忙碌工作的機(jī)器人背后,是一套基于云邊端的系統(tǒng)架構(gòu)。

首先在最底層的端側(cè),是機(jī)器人的本體,包含視覺感知、定位、PNC等軟件的算法;中間的邊緣服務(wù)器端,運(yùn)行RMS負(fù)責(zé)機(jī)器人任務(wù)的調(diào)度和路徑規(guī)劃;最上層的云端部署WMS、ERP系統(tǒng)和客戶的業(yè)務(wù)進(jìn)行對接。

正是基于這么一套云邊端架構(gòu),(我們)保證了物流機(jī)器人穩(wěn)定高效運(yùn)行。

二、倉儲場景:視覺識別精度要提升,降本需求大

對物流機(jī)器人系統(tǒng)有初步了解之后,看一下視覺感知的挑戰(zhàn)和應(yīng)對。

首先在倉儲場景,目前應(yīng)用較多的是:1、貨架到人揀選;2、貨箱到人的揀選。

“貨到人揀選模式”改變了傳統(tǒng)揀選中人找貨的工作方式——由RMS下發(fā)指令,機(jī)器人運(yùn)行到特定的位置處,將對應(yīng)的貨架或者特定的料箱搬運(yùn)到揀選工位處,由人工完成揀選。在這個環(huán)節(jié)中,作業(yè)員已經(jīng)不需要穿梭貨架尋找貨物,新的揀選模式大幅降低了揀選員的勞動強(qiáng)度,同時明顯降低了揀選的錯誤率,使整體的效率有2~3倍的提升。

極智嘉研發(fā)總監(jiān)陳超:物流業(yè)占GDP10%,物流機(jī)器人視覺感知面臨挑戰(zhàn)

揀選機(jī)器人是怎么定位的?細(xì)心的朋友已經(jīng)看到了,視頻里面在地面上網(wǎng)格化密布了一些二維碼,在機(jī)器人底部裝有攝像頭,通過攝像頭拍攝二維碼進(jìn)行定位,這和平時手機(jī)掃碼原理很相似。

由于二維碼部署在地面上,有一些特殊之處,容易受到污損。在倉庫的場景下經(jīng)常會有一些拖車料車運(yùn)行,倉庫里面定期進(jìn)行清潔維護(hù),用功率非常大的清洗機(jī),都會對地面二維碼造成損傷。

另外一方面,機(jī)器人運(yùn)行速度超過2~3米/秒,鏡頭距地面距離非常近,單位時間內(nèi)物體滑過的像素數(shù)比較多,圖象模糊的情況比較嚴(yán)重。另外,低成本,也是受到前端市場方面的激烈競爭,(市場)對揀選類的機(jī)器人的傳感器、計算芯片等提出降成本的訴求。

針對前面的問題,我們做了一些技術(shù)和產(chǎn)品的迭代。早先的版本里面選用了非常低成本的異構(gòu)SoC(系統(tǒng)級芯片),將我們傳統(tǒng)的基于幾何特征的算法用FPGA優(yōu)化加速,最終實(shí)現(xiàn)比較優(yōu)異的性能價格比和性能功耗比。

針對二維碼的污損問題,同時也為了減少二維碼在場景中的部署,(我們)引入了地紋。仔細(xì)觀察會發(fā)現(xiàn),地面其實(shí)有非常細(xì)小的紋理,都是獨(dú)一無二的ID,可以用來做定位,和二維碼上面的碼值是類似的。

由于地紋的特殊性,(我們)采用一系列變換來提取地紋Global Feature,建立地圖定位。當(dāng)然地紋有一定的局限性,對于工廠的環(huán)氧地面、一些高亮瓷磚地面等都無法使用。

(我們)在最新的機(jī)器人上通過在機(jī)器人前端部署平視相機(jī),后端采用神經(jīng)網(wǎng)絡(luò)的方法Markernet極大地拓展了二維碼檢測能力。之前我們的攝像機(jī)是朝下拍攝的,視野范圍非常小,機(jī)器人稍微走偏一點(diǎn)點(diǎn),幾厘米、十幾厘米就會發(fā)生定位的丟失?,F(xiàn)在依托于前視攝像頭能夠在更大的范圍內(nèi)檢測二維碼,進(jìn)行重定位,使故障率降低了兩個數(shù)量級。

很多朋友會問,為什么對于二維碼有著明顯幾何特征或者人工設(shè)計的物體,為什么采用網(wǎng)絡(luò)的方法?

相對傳統(tǒng)的手機(jī)掃碼也好或者之前的機(jī)器人下視二維碼檢測的方式,現(xiàn)在二維碼需要在更大范圍更小的角度去檢測模糊污損的二維碼,基于數(shù)據(jù)驅(qū)動模型的方法超過了傳統(tǒng)的人工設(shè)計特征的方法。

借助靈活相機(jī)的部署還有后端智能算法,極大地拓展了二維碼在場景中的使用范圍,可以拓展到側(cè)面的貨架或者天花板或者場景中的幾乎任何地方。這是在物流港口集裝箱里面做的測試,可以在非常黑暗的環(huán)境中進(jìn)行二維碼的檢測識別。

三、工業(yè)場景:應(yīng)對更復(fù)雜場景,建立仿真方案

在工業(yè)場景下,物流機(jī)器人視覺感知面臨的挑戰(zhàn)和應(yīng)對,相對之前提到的倉儲環(huán)境,作業(yè)環(huán)節(jié)更多,涉及的面更廣。

工業(yè)場景中,不同場景下對應(yīng)有不同形態(tài)的機(jī)器人,包括左邊的滾筒搬運(yùn)機(jī)器人、頂升搬運(yùn),還有機(jī)械臂負(fù)荷機(jī)器人和智能叉車。工業(yè)場景下需求多樣、場景復(fù)雜,而不同的機(jī)器人在處理不同作業(yè)任務(wù)的時候會面臨著不同的挑戰(zhàn),下面具體來了解一下。

極智嘉研發(fā)總監(jiān)陳超:物流業(yè)占GDP10%,物流機(jī)器人視覺感知面臨挑戰(zhàn)

首先,樣本少。以復(fù)合型機(jī)器人為例,做末端的抓取當(dāng)中面臨著超過十萬種商品的檢測和識別,不同于像無人車這種應(yīng)用,在工業(yè)領(lǐng)域很少有能在公開數(shù)據(jù)集上找到相應(yīng)的樣本供我們訓(xùn)練。同時,工業(yè)客戶對數(shù)據(jù)的隱私性有一定的要求,也限制了一些樣本的采集。

極智嘉研發(fā)總監(jiān)陳超:物流業(yè)占GDP10%,物流機(jī)器人視覺感知面臨挑戰(zhàn)

我們采用仿真+學(xué)習(xí)的方案。以托盤為例,托盤是在整個物流場景下廣泛使用的載具,托盤有很多種類,有歐標(biāo)、國標(biāo)還有非標(biāo),有各種不同的顏色、形狀、尺寸、材質(zhì),甚至某些客戶就地取材,用原材料臨時組裝成類似托盤的物品。利用仿真引擎快速搭建單目標(biāo)的效果圖,可以對它進(jìn)行不同的光照、顏色、位置的渲染,快速擴(kuò)充我們的樣本。對于某些應(yīng)用,我們可以做到全場景的仿真。對于工業(yè)場景下之前已經(jīng)積累的一些數(shù)據(jù)還有已經(jīng)訓(xùn)練好的模型利用Few Shots learning,Transfer Learning快速開發(fā)、適配一些新應(yīng)用。

未知目標(biāo)檢測,目標(biāo)的種類比較多,一些異常檢測或者障礙物檢測無法窮盡被測目標(biāo),我們不知道前面掉的是產(chǎn)線上的扳手或者一個零件,也可能是一個鼠標(biāo)或者電池,基于傳統(tǒng)的深度模型的方法過度依賴于之前的樣本,面對從來沒有見過的物品檢測的時候,性能有比較大的下降。

極智嘉研發(fā)總監(jiān)陳超:物流業(yè)占GDP10%,物流機(jī)器人視覺感知面臨挑戰(zhàn)

我們引入深度學(xué)習(xí)的方法有機(jī)結(jié)合深度數(shù)據(jù)和RGB數(shù)據(jù)進(jìn)行檢測。深度相機(jī)的種類非常多,包括Stereo camera、TOF camera、Structure Light camera等,根據(jù)不同的檢測距離、精度要求選擇相應(yīng)的傳感器。我們選用Stereo camera進(jìn)行障礙物檢測,它輸出的深度圖和灰度圖在像素層面上是天然對齊的,為后面的進(jìn)一步信息融合奠定非常好的。

以深度為主的檢測方法不太依賴之前建立的模型,對于未曾見過的目標(biāo)有比較好的檢測效果,我們機(jī)器人上使用的是成本非常廉價的深度傳感器,不像激光雷達(dá)有那么高的距離精度,對于低矮細(xì)小的物體,深度的數(shù)據(jù)可用性大幅降低,對于很遠(yuǎn)的物體,深度圖從原理上退化成2D圖,需要結(jié)合RGB的數(shù)據(jù)進(jìn)行檢測。

工業(yè)場景下出于對于安全性、效率的要求,對其相關(guān)的設(shè)備魯棒性要求非常高,以叉車為例,叉車的負(fù)載能力非常強(qiáng),破壞性非常大,錯誤的檢測會對物品、人員造成非常大的傷害,我們采用復(fù)合模型的方法,通過復(fù)合模型把深度學(xué)習(xí)方法和領(lǐng)域知識結(jié)合在一起。一方面我們快速地輸出物體潛在的檢測物體,另外一方面托盤檢測或者某些料箱檢測來說,我們知道檢測的是什么目標(biāo),就可以利用先驗?zāi)P妥咭粋€網(wǎng)絡(luò)校驗,得到魯棒性更高準(zhǔn)確性更高的結(jié)果。

極智嘉研發(fā)總監(jiān)陳超:物流業(yè)占GDP10%,物流機(jī)器人視覺感知面臨挑戰(zhàn)

高動態(tài)場景下的定位,和基于地面上的二維碼進(jìn)行定位的倉儲機(jī)器人不同,,工業(yè)上更多的使用SLAM機(jī)器人。SLAM是利用傳感器對環(huán)境進(jìn)行觀測建立地圖進(jìn)而進(jìn)行定位的技術(shù),這和人眼觀測整個場景,根據(jù)這些視覺地標(biāo)定位的原理是很相似的?;赟LAM定位有一些優(yōu)點(diǎn),不需要對場景進(jìn)行改造,不需要鋪設(shè)那么多二維碼,實(shí)施起來更加便捷,行走線路不是網(wǎng)格化,而是走任意軌跡。SLAM機(jī)器人由于靈活性,更符合柔性制造的產(chǎn)業(yè)客戶需求,在制造業(yè)得到了廣泛的應(yīng)用。

極智嘉研發(fā)總監(jiān)陳超:物流業(yè)占GDP10%,物流機(jī)器人視覺感知面臨挑戰(zhàn)

基于SLAM定位有一個非常大的挑戰(zhàn),就是高動態(tài)環(huán)境下定位丟失的問題。例如產(chǎn)線上的料箱會隨著作業(yè)時間的變化而發(fā)生改變,當(dāng)機(jī)器人去取料箱的時候,還有10個箱子,當(dāng)它放回來的時候只剩下2個,場景的變化就會造成機(jī)器人定位失敗,相當(dāng)于拿著舊地圖去看路尋路,大概率會失敗。

我們采取地圖更新和語義地圖的方案,基于剛才提到的云邊端的架構(gòu),賦予每個端側(cè)機(jī)器人檢測變化的能力,當(dāng)發(fā)現(xiàn)與地圖無法良好匹配的時候,把數(shù)據(jù)上傳到邊緣服務(wù)器。邊緣端能夠綜合多臺機(jī)器人搜集到的數(shù)據(jù),根據(jù)之前的靜態(tài)參考地圖進(jìn)行判斷,進(jìn)行地圖的融合更新,將融合好的地圖下發(fā)到每個機(jī)器人那里,這樣機(jī)器人可以利用最新的地圖進(jìn)行定位。

語義地圖,在網(wǎng)絡(luò)中檢測一些物體,識別動靜態(tài)特性,比如人、料車是可移動的,不能作為地標(biāo)從地圖里面去除掉,對于某些重型設(shè)備是可移動的,移動頻率非常低,在地圖里面降低它的置信度,地面的標(biāo)線、墻面、柱子等等是高靜態(tài)物體,增加它在地圖里的置信度。相比傳統(tǒng)的基于特征點(diǎn)的定位,基于語義目標(biāo)的定位,精度可能略微低一點(diǎn),但魯棒性非常高,甚至可以基于整個場景中的一個物體就能夠?qū)φ麄€機(jī)器人的位置進(jìn)行部分或者全部約束,從而保證機(jī)器人的順暢運(yùn)行。

低算力的挑戰(zhàn),受限于價格、體積、功耗等一系列方面的因素,我們在端側(cè)設(shè)備上不可能使用高性能的計算芯片,我們做的是在算法和軟件層面進(jìn)行優(yōu)化。對于網(wǎng)絡(luò)模型,在數(shù)值計算層面,在網(wǎng)絡(luò)本身的結(jié)構(gòu)上,在整個檢測流程方面進(jìn)行優(yōu)化。另一方面利用各大硬件廠商所提供的配套優(yōu)化和推理引擎來對我們的算法進(jìn)行優(yōu)化部署。以O(shè)penVINO為例,在服務(wù)器端進(jìn)行量化調(diào)優(yōu)剪枝,經(jīng)過優(yōu)化的模型通過IE引擎部署到低算力的計算平臺上。英特爾的OpenVINO能夠充分挖掘整個處理器中不僅僅是CPU,還包含其它的計算單元,特別是集成顯卡的算力,更加充分利用了片上資源。

極智嘉研發(fā)總監(jiān)陳超:物流業(yè)占GDP10%,物流機(jī)器人視覺感知面臨挑戰(zhàn)

今天就聊到這里,我們非常期待與各位同行和合作伙伴一起來探討視覺AI技術(shù)在物流行業(yè)的應(yīng)用,共同打造智能機(jī)器人,讓物流變得更簡單。謝謝大家!

以上是陳超演講內(nèi)容的完整整理。