4月20日起,智東西創(chuàng)課推出自動(dòng)駕駛系列課第二季,9位自動(dòng)駕駛新勢力的創(chuàng)始人和高管將帶來9節(jié)系列課。

第三課由眼擎科技CEO朱繼志主講,主題為《如何克服ISP解決不了的復(fù)雜光線難題》。本文為朱繼志的主講實(shí)錄,共計(jì)14605字,預(yù)計(jì)18分鐘讀完。一起了解周朱繼志的主講提綱:

1、自動(dòng)駕駛前端成像的現(xiàn)狀
2、ISP架構(gòu)及其在自動(dòng)駕駛中的局限性
3、成像引擎如何在復(fù)雜光線下提高成像準(zhǔn)確率
4、120dB如何在自動(dòng)駕駛領(lǐng)域中實(shí)現(xiàn)

在瀏覽正文之前,可以先思考以下幾個(gè)問題:

-實(shí)驗(yàn)室數(shù)據(jù)和現(xiàn)場數(shù)據(jù)最大的差別是什么?
-如何正確的理解ISP(圖像信號(hào)處理)?
-動(dòng)態(tài)范圍的概念是什么?動(dòng)態(tài)范圍是如何導(dǎo)致復(fù)雜光線問題的?
-在自動(dòng)駕駛領(lǐng)域中,視覺相比于激光雷達(dá)有哪些優(yōu)點(diǎn)?
-eyemore用四年時(shí)間開發(fā)的成像引擎有什么特點(diǎn)和優(yōu)勢?

「提醒:如果希望下載自動(dòng)駕駛第二季每堂課的完整課件,可以在車東西公眾號(hào)(ID:chedongxi)回復(fù)關(guān)鍵詞“系列課”獲取。如果你希望成為主講導(dǎo)師,可以回復(fù)關(guān)鍵詞“導(dǎo)師”,進(jìn)行申請(qǐng)」

主講環(huán)節(jié)

朱繼志:大家好,我是眼擎科技朱繼志。很高興今天有機(jī)會(huì)在智東西的自動(dòng)駕駛系列課上給大家分享關(guān)于復(fù)雜光線視覺成像這個(gè)難題??吹饺豪镉泻芏嘣谧詣?dòng)駕駛以及視覺相關(guān)的各種行業(yè)的小伙伴們,我先簡單介紹我們公司,我們是一家創(chuàng)業(yè)公司,專注于做新型的成像引擎(我們不叫ISP),在復(fù)雜光線下如何進(jìn)行視覺成像,四年來一直專注于做這一個(gè)事情。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

視覺在圖像、AI的各個(gè)領(lǐng)域應(yīng)用都特別廣,自動(dòng)駕駛就不用說了。群里可能有不少人是做圖像識(shí)別的,大家經(jīng)常會(huì)看到有很多圖像識(shí)別能力現(xiàn)在做得很高,95%、97%或者98%都有可能,但這些通常指的是在實(shí)驗(yàn)室的數(shù)據(jù)或者是在光線比較好的環(huán)境下,實(shí)際上有很多客戶包括很多在做智能駕駛的客戶都反映一個(gè)問題,在實(shí)際應(yīng)用中由于圖像源的問題,導(dǎo)致識(shí)別的效果會(huì)變差,很多圖像源可能有各種各樣的問題,比如噪點(diǎn)太多、顏色不準(zhǔn)確、發(fā)黑等。

這類似于我們?cè)谔詫氋I東西時(shí)賣家秀跟買家秀一樣,我們平時(shí)用來做訓(xùn)練、學(xué)習(xí)的視覺圖片都是正常的,但是實(shí)際場景中經(jīng)常會(huì)碰到不正常的圖片。而我們要做的事情就是如何去幫助大家把實(shí)驗(yàn)室99%的識(shí)別率變成實(shí)際應(yīng)用中99%的識(shí)別率。實(shí)驗(yàn)室和現(xiàn)場最大的差別就是光線的差異,因?yàn)樗幸曈X成像的來源在圖像源的時(shí)候,主要受光線的影響,差別可能會(huì)非常大。

光線的差異會(huì)帶來圖像本質(zhì)上的變化,最直接的影響就是會(huì)損失掉很多重要信息,比如會(huì)造成發(fā)黑、過曝、完全沒有信息、顏色的灰度不對(duì)、顏色偏差以及邊緣會(huì)失真、不清楚等一系列問題,反映在后端的視覺識(shí)別算法時(shí)看到的都是跟訓(xùn)練模型不一樣的效果,出現(xiàn)信息量太少或者沒法檢測、沒法分析等,因此導(dǎo)致結(jié)果會(huì)差別非常大,這是一個(gè)本質(zhì)的變化。因?yàn)橐曈X本身就是物體本身的顏色對(duì)光線在不同環(huán)境下的響應(yīng),所以光線變化很大的時(shí)候,帶來的差別是本質(zhì)的變化,在各種環(huán)境當(dāng)中,尤其是在自動(dòng)駕駛里面,又不可避免地碰到各種各樣的復(fù)雜光線的環(huán)境。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

做自動(dòng)駕駛的,或者普通的用戶以及其他做圖像產(chǎn)業(yè)相關(guān)的人會(huì)經(jīng)常碰到一些問題,比如在過隧道的時(shí)候,尤其是在出隧道的時(shí)候,隧道里面會(huì)比較暗,外面特別亮,導(dǎo)致隧道外面一片看不清楚,出去之后車載攝像頭還需要挺長的響應(yīng)時(shí)間;另外在晚上碰到對(duì)面車開遠(yuǎn)光燈的時(shí)候,會(huì)感覺很刺眼,對(duì)機(jī)器也是一樣的,識(shí)別的時(shí)候只有幾個(gè)大的白圈,其他什么信息都沒有;還有在夜間環(huán)境下的紅綠燈問題,因?yàn)榘滋斓臅r(shí)候,紅燈的亮度是比較正常的,也比較容易看到,而到晚上的時(shí)候,一是因?yàn)槁愤呌刑貏e多的燈,紅綠燈只是其中之一,二是因?yàn)榘倒庀录t綠燈會(huì)特別的亮,所以它很容易過曝,顯示出來就會(huì)看不清楚,比如指示牌上的箭頭很可能變成一大塊模糊的綠色或者紅色。

這些都是復(fù)雜光線下視覺圖像源在成像過程中產(chǎn)生的問題,除了在這些情況下,其他的比如辦公室的玻璃墻、玻璃杯以及識(shí)別人臉時(shí)候的逆光,還有一些物體某部分是高光,比如白色和黑色的反差,以及人臉晚上的時(shí)候可能會(huì)變得非常不清晰等等,這些出現(xiàn)在前端的視覺現(xiàn)象在自動(dòng)駕駛領(lǐng)域很容易就會(huì)導(dǎo)致后端識(shí)別不了的問題。從成像來看的話,不管它是什么現(xiàn)象,基本可以總結(jié)為三個(gè):

1,弱光,光線太弱,太黑了,看不清楚;
2,逆光,逆光就是一個(gè)大燈,這種情況下也叫大光源;
3,背光,就有大片是白的亮的,一些小塊前面是暗的。

這幾種是最常見的場景,簡單講就是光線太暗,或者光比太大這兩個(gè)問題。不管是什么現(xiàn)象,都可以用光線太弱或者光線的反差太大來解釋。通常來講,解決這個(gè)問題有幾種基本的策略:

1,感光度不好的時(shí)候提高感光度,要大幅度地提高感光度;
2,調(diào)整曝光策略,比如我要怎么知道能夠在哪一部分正確的曝光;
3,提高動(dòng)態(tài)范圍,后面會(huì)講到動(dòng)態(tài)范圍的概念,其中動(dòng)態(tài)范圍是最常見的一個(gè)問題。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

在講到具體的成像過程之前,先給大家介紹一下基本的概念,因?yàn)閺奈覀兘佑|的很多客戶來看,在成像這一端,大家對(duì)它的認(rèn)知有很多誤解,而且大部分做圖像的人都是在做圖像的分析,就是得到圖像之后以及后面怎么來做識(shí)別檢測這部分的分析。成像是一個(gè)感知層面的工作,相當(dāng)于我們的大腦和眼睛的分工一樣,我們做的前端成像是眼睛這部分的工作,而大部分做圖像識(shí)別以及圖像AI算法和深度學(xué)習(xí)都是做大腦的事情,這兩個(gè)環(huán)節(jié)是分開的,總的來說,認(rèn)知和感知是大腦做的事情,眼睛做的事情就是前端成像。

從技術(shù)上來看,成像叫Imaging,圖像的分析叫Imaging Procession。視覺成像和圖像處理是兩個(gè)不同的領(lǐng)域,其中最基本的區(qū)別是處理信號(hào),一個(gè)是有了圖以后怎么進(jìn)行分析,處理信號(hào)會(huì)涉及到很多硬件,還有很多對(duì)硬件的控制以及信號(hào)中的變換,不是一個(gè)純軟件的事情;圖像分析更多的是純算法層面的東西,大腦做的是圖像分析,而眼睛做的更多是信號(hào)處理,所以信號(hào)處理很多時(shí)候是和硬件相關(guān)的。

我們做AI圖像識(shí)別的時(shí)候,基本上都是從軟件層面進(jìn)行的。軟件和硬件有一個(gè)最基本的區(qū)別是:一個(gè)是實(shí)時(shí)的,一個(gè)是非實(shí)時(shí)的。比如我們做圖像處理的時(shí)候可以在CPU上運(yùn)行,在ARM、英特爾等各種各樣的CPU上運(yùn)行,也可以在GPU上運(yùn)行,但是在做成像的過程中是不能在上面運(yùn)行的,必須是在FPGA或者是ASIC上運(yùn)行,因?yàn)樗仨毷且粋€(gè)非常嚴(yán)格的有時(shí)序的硬件來保證它的時(shí)延是可控的,因?yàn)樵贑PU或GPU上都會(huì)有一定的不確定性,很多時(shí)候眼睛能做的事情只有一件,而圖像分析等在很多時(shí)候都是軟件進(jìn)行的,這是幾個(gè)基本的概念。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

在講到整個(gè)視覺的時(shí)候,我們可以把它看成整個(gè)鏈條,其中視覺的處理可以分成四個(gè)環(huán)節(jié):

1、鏡頭,它是光信號(hào)進(jìn)來,光信號(hào)出去,是一個(gè)光學(xué)器件;
2、CMOS傳感器Sensor,它是光信號(hào)進(jìn)來,電子信號(hào)出去;
3、ISP,我們叫成像引擎,它是電子信號(hào)進(jìn)來,圖像出去;
4、AI或者GPU,它是圖像進(jìn)來,結(jié)果出去。

這四個(gè)環(huán)節(jié)就像跑接力賽一樣,每一棒都有它最大的價(jià)值和最獨(dú)特的價(jià)值,通常情況下我們會(huì)關(guān)注誰負(fù)責(zé)最后沖刺,因此現(xiàn)在做AI圖像處理是最熱門的。

從鏡頭和CMOS來講,第一棒是鏡頭,鏡頭主要是決定光學(xué)的特性,比如我們平時(shí)說是不是能看得很遠(yuǎn),一百米還是一百米多少度的視角等,這些都是由鏡頭的焦距決定的,除此之外還有一些特性,比如炫光、鏡頭的品質(zhì)和光圈的大小也是由鏡頭來決定的;第二棒就是CMOS傳感器,它決定了很多電子的特性,比如分辨率、幀率還有一些曝光的策略等屬性,這些都是由CMOS來決定的,CMOS是一種非常重要的器件。這兩部分基本上都不涉及到算法,主要類似于以模擬器件為主,因此是很難把算法加進(jìn)去的。

而這兩個(gè)產(chǎn)業(yè)已經(jīng)是非常成熟的,鏡頭產(chǎn)業(yè)是很旁大的,同時(shí)CMOS產(chǎn)業(yè)也是很龐大的,這兩個(gè)產(chǎn)業(yè)的特點(diǎn)都是很難在原理上有突破,除非是材料上發(fā)生了非常大的變化,因此目前的發(fā)展空間是有限的。后面兩個(gè)環(huán)節(jié)都是和算法相關(guān)的,包括成像引擎和圖像的分析。對(duì)于前面兩個(gè)模擬器件的特點(diǎn),可以說是一分錢一分貨,僅從一個(gè)參數(shù)上觀察,你很難看出這兩個(gè)器件的差別以及好和壞,比如鏡頭,同樣的鏡頭可能價(jià)格差別很大,對(duì)于賣的比較貴的,它在某一方面的特性可能會(huì)非常強(qiáng),但不是所有的特性都能用參數(shù)直接標(biāo)出來的,同樣CMOS也是一樣。

對(duì)于CMOS Sensor,同樣的分辨率和參數(shù),有些可能賣幾塊錢人民幣,有一些可能賣到幾百美金,其中會(huì)有很多的差別,比如在選擇鏡頭和傳感器時(shí),不能只看參數(shù),還要看它的性能,所有的模擬性質(zhì)器件的特點(diǎn)都是這樣的屬性。它包含很多品質(zhì)、質(zhì)量的因素,對(duì)于大部分?jǐn)?shù)字的東西,通過參數(shù)來進(jìn)行衡量可能是比較容易的。因此很多做軟件出身的人也不太容易理解,他們覺得參數(shù)是一樣的,那它的產(chǎn)品就是一樣的,其實(shí)不然,差別可能會(huì)是特別大,每個(gè)差別在實(shí)際應(yīng)用場景當(dāng)中都會(huì)產(chǎn)生很大的影響,比如鏡頭在逆光的時(shí)候,炫光大小就很有關(guān)系,會(huì)直接影響到后面的環(huán)節(jié)。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

接下來跟大家講一下ISP,群里可能有做ISP的朋友,也有可能調(diào)過ISP的,也可能用過ISP的,也有可能了解過ISP的,如果你在網(wǎng)上查資料去了解的話很容易被誤解,網(wǎng)上會(huì)說ISP是3A、自動(dòng)曝光、自動(dòng)白平衡和自動(dòng)聚焦。其實(shí)3A只是ISP的一些功能,那該如何來理解ISP呢?ISP的英文是Image Signal Processing,意思是圖像信號(hào)處理,包含四個(gè)部分:

1,CMOS的控制器,因?yàn)镃MOS是一個(gè)大數(shù)據(jù)量的東西,沒有單獨(dú)的控制器,我們做硬件的都知道,一個(gè)觸摸屏或者一個(gè)語音的東西都會(huì)有一個(gè)控制器。但是所有CMOS的控制器都是放在ISP里,因此CMOS的很多控制指令是通過ISP來實(shí)現(xiàn)的;
2,信號(hào)處理的算法,怎樣從電子信號(hào)得到圖像呢?過程中可能有很多CMOS的一致性不好等問題,通過CMOS不同的RGB表達(dá)方式及其原理是能夠還原出圖像的,其中也會(huì)包含很多的算法;
3,圖像算法,得到圖像以后,ISP也要做很多處理,都是基于圖像算法來實(shí)現(xiàn)的;
4,接口,它輸出的是智能硬件接口的格式。

這四部分加在一起就是一個(gè)實(shí)體的ISP所做的事情。

通常我們講ISP的時(shí)候,更多強(qiáng)調(diào)的是功能實(shí)現(xiàn),因此在算法尤其是在圖像算法上要求并不是很高。我們重點(diǎn)是做圖像的算法以及信號(hào)處理中很多新型算法的實(shí)現(xiàn),這也可以看出做一個(gè)ISP是需要綜合有很多方面的技術(shù),首先如果你對(duì)CMOS不是特別熟悉,各種各樣的CMOS都不一定是標(biāo)準(zhǔn)的,同時(shí)也需要懂電子信號(hào)的處理、圖像的算法以及很多硬件相關(guān)的知識(shí),這樣才能夠做一個(gè)單獨(dú)的ISP產(chǎn)品。之所以做ISP的人比較少,是因?yàn)樗枰臇|西比較多,既有硬件又有信號(hào)處理以及軟件算法等。

很多時(shí)候大家比較關(guān)注圖像用的是什么CMOS來決定了所有的性能,其實(shí)不完全是這樣子的。CMOS就像接力賽一樣,每一棒的效果對(duì)后面都有影響。我們經(jīng)??吹礁鞣N各樣的COMS,它們的性能并不是一個(gè)確定的值,甚至?xí)泻芏鄥?shù),最關(guān)鍵的比如噪點(diǎn)的控制、信噪比,很多時(shí)候它取決于現(xiàn)有的控制。舉個(gè)例子,比如CMOS的噪聲噪點(diǎn)反映圖像在很多時(shí)候取決于整個(gè)Camera里面的硬件設(shè)計(jì),如果電源設(shè)計(jì)不好,那么CMOS本身會(huì)有很多電源的噪聲干擾,對(duì)CMOS性能產(chǎn)生非常大的損傷。

因此在看CMOS的時(shí)候,需要看它的整體,而不能單看CMOS,另外不同公司的CMOS,其性能不一定有標(biāo)記的那么高,或者在某些方面的參數(shù)也未必能達(dá)到預(yù)想的值,比如我們經(jīng)常會(huì)看到有多少個(gè)dB的CMOS,但同樣的標(biāo)準(zhǔn)和參數(shù)值可能有賣5塊錢、50塊錢或者500塊錢的,因此CMOS不能夠僅僅從參數(shù)來看,還要看實(shí)際經(jīng)驗(yàn)的結(jié)果,這也是很多人不太了解的地方。另外一個(gè)是CMOS的性能在很大程度上取決于ISP,有點(diǎn)類似于發(fā)動(dòng)機(jī)中的控制板ECU,發(fā)動(dòng)機(jī)的控制板對(duì)發(fā)動(dòng)機(jī)本身的影響是很大,這是雙方之間的一個(gè)過程,所以這是在成像過程中一個(gè)很重要的環(huán)節(jié)。在理解CMOS的時(shí)候,如果大家使用過單反相機(jī)拍照,有幾個(gè)基本的概念,其中曝光控制的概念是最基本的,我們叫正確的曝光。很多時(shí)候我們拍照拍不好是因?yàn)槠毓獠徽_,同樣我們?cè)谧詣?dòng)駕駛時(shí)的成像不正確,也是因?yàn)槠毓饪刂撇缓?。比如在?duì)方開大燈的時(shí)候,如果曝光控制的好,能夠把一些暗部的地方曝得清楚,但問題在于曝光控制自動(dòng)曝光的時(shí)候,并不知道你想準(zhǔn)確地讓哪一部分清楚,這是曝光控制的一個(gè)難點(diǎn),因?yàn)榍岸顺上襁^程中并不知道后端你想看什么。

在曝光過程中會(huì)有幾個(gè)核心的概念,大家如果玩過相機(jī),就知道光圈、快門以及感光度這三個(gè)概念,在技術(shù)上叫作增益,即多少倍。這三個(gè)因素制約了整個(gè)曝光環(huán)節(jié),光圈是指鏡頭的概念;快門是指曝光時(shí)間,是控制CMOS的時(shí)間來感光;通俗來講,光圈是指開的門有多大,快門是指這個(gè)門要開多長時(shí)間,增益是指要把圖像調(diào)高多少倍,所有的曝光最后都反映在這三個(gè)參數(shù)之間的平衡,如果想要曝亮一點(diǎn),你可以把光圈開大一點(diǎn),也可以把快門拉長一點(diǎn),也可以把增益調(diào)高一點(diǎn),但是每一個(gè)都會(huì)有相關(guān)的副作用。

比如,如果快門開的時(shí)間太短,它的好處是在我們運(yùn)動(dòng)的時(shí)候它不會(huì)拖影,而壞處是快門時(shí)間短,進(jìn)的光就會(huì)少,噪點(diǎn)就會(huì)多,增益也是一樣的。理論上來講增益可以放的很大,感光度很高,但是感光度高了之后,噪點(diǎn)也有會(huì)變多。

關(guān)于理解光線和燈光,如果大家做過攝影就知道,攝影棚里面都會(huì)有很多燈,打這么多燈的目的是為了去平衡光線,讓各個(gè)環(huán)境的光線反差不要太大,讓每個(gè)地方拍出來都是清楚的,這是傳統(tǒng)的ISP通過打燈的方式來解決拍的不好的問題。而在實(shí)際應(yīng)用中會(huì)有各種各樣的光線環(huán)境,在白天的時(shí)候可能還好一點(diǎn),基本上光源就是外面的太陽,如果沒有太陽,天空、云彩以及地面的反光基本上也會(huì)處于一個(gè)很大的光源,相對(duì)來說都是比較均衡的,但是光線在晚上的時(shí)候就會(huì)變得特別復(fù)雜。

我們都有晚上開車的經(jīng)驗(yàn),對(duì)于路燈,首先我們不知道燈的類型、高度以及燈與燈之間的距離,然后我們?cè)诔鞘械缆飞祥_的時(shí)候,路邊到處都是景觀工程,有著各種各樣的燈,因此每一個(gè)現(xiàn)場的環(huán)境我們可以理解為有N多種不受控的光源,有些地方可能很亮,有些地方可能很暗,而且它是沒有規(guī)則地出現(xiàn),從而導(dǎo)致了光線環(huán)境的復(fù)雜性,因此是很難去預(yù)測光線的環(huán)境。另外,在同樣的光線環(huán)境下,物體本身的顏色亮度也會(huì)有很大差異。

比如在晚上,我們把一件白色衣服和一件黑色衣服放在一起,會(huì)發(fā)現(xiàn)在同樣的光線情況下,這兩件衣服的反差非常大。因此整個(gè)物體的光線環(huán)境是由光源以及物體本身的特質(zhì)所決定的,這樣就能夠理解在實(shí)際應(yīng)用的現(xiàn)場當(dāng)中會(huì)有N種可能性的光線,包括各種各樣的反光以及一個(gè)物體上面可能有不同的顏色和不同的亮度,統(tǒng)一稱之為很難預(yù)測的復(fù)雜光線。相反地,在攝影棚或者辦公室的時(shí)候,其中的燈光環(huán)境是可控的,我們可以很容易的去調(diào)節(jié)。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

接下來我想跟大家講一下信噪比這個(gè)概念,對(duì)于做過硬件和信號(hào)的人來說,不管做什么信號(hào)處理都會(huì)對(duì)信噪比有一個(gè)非常好的理解,因?yàn)樗行畔⒌膫鬏敹几旁氡扔嘘P(guān)系。但我發(fā)現(xiàn)很多做軟件出身的人對(duì)信噪比沒有概念,信噪比就是用信息量S除以噪聲N,信噪比越高說明品質(zhì)越好,也就是信息量S越大越好,噪聲(Noise)N越小越好。

從視覺上看,一個(gè)物體是由它的顏色所決定的,顏色包含了灰度和亮度等,我們通常會(huì)說還原度非常高,顏色很準(zhǔn)確,這是一個(gè)主觀的說法,從技術(shù)上看,可以理解成信噪比很高,偏差很小,在同樣一個(gè)識(shí)別算法中的任何場景下,我們可以簡單地認(rèn)為信噪比決定了可識(shí)別性,圖像源的品質(zhì)可以用信噪比來衡量,信噪比越高,可識(shí)別性就越高,圖像源越好,那么在同樣的識(shí)別軟件情況下,識(shí)別的準(zhǔn)確率就會(huì)越高。所以對(duì)于信噪比,我們可以看成兩個(gè)部分,第一部分是如何不斷地提高信息量,第二部分是如何把噪聲降到很小,這可以看成是一個(gè)降噪的過程,而ISP也有降噪的功能,但降噪并不是一個(gè)純算法的事情,另外還由硬件、Sensor的屬性和算法三個(gè)方面來共同決定的,如果你要做高精度的降噪,由于硬件設(shè)計(jì)精度的噪聲本來就非常小,還取決于Sensor的屬性,因此你要了解Sensor的屬性,并采用不同的方法來控制它。另外降噪的算法可以分成單幀,多幀等多種算法,而算法與計(jì)算量是有很大的關(guān)系。

接下來是關(guān)于實(shí)驗(yàn)值和理論值的問題,從圖像上來看,我們?cè)谧霎a(chǎn)品或技術(shù)的時(shí)候,更關(guān)心的是實(shí)驗(yàn)測量出來的值,并不太關(guān)心理論值是多少。在做信號(hào)處理時(shí),會(huì)發(fā)現(xiàn)有很多理論認(rèn)為這個(gè)項(xiàng)目的算法很好,那個(gè)項(xiàng)目的算法很好,或者是這樣的方式很好,但這些都是理論值,我們不能僅看理論的推導(dǎo),還要看實(shí)際的經(jīng)驗(yàn)值。另外關(guān)于全局和局部的問題,有時(shí)候我們看一張圖片,會(huì)發(fā)現(xiàn)它整體看上去是挺好的,但是在某些局部上會(huì)比較差,因此如何處理資源上的平衡也是需要考慮的。

視頻(在車東西公眾號(hào)回復(fù)關(guān)鍵詞“眼擎科技”獲?。?/strong>

上面是一個(gè)30秒的視頻,其中有四個(gè)場景:

1、過隧道的場景,左邊是我們的成像方案,和右邊對(duì)比存在很大的差異,首先,隧道外面是沒有過曝的,細(xì)節(jié)都非常清楚,隧道里面的亮度也是夠的,而右邊是普通的攝像機(jī)拍出來的圖像,可以看到外面已經(jīng)是過曝的了,而且里面很暗;

2、這是一個(gè)模擬大燈的場景,大家可以看出我是用手機(jī)拍的,一般情況下,這是一個(gè)很亮的LED燈罩,下面有一個(gè)車牌,這時(shí)如果用一般的攝像頭拍,那么只能看到一大片白的,同時(shí)我們的眼睛在這種環(huán)境下也是看不清楚車牌的;另外可以看到后面有一個(gè)屏幕,屏幕上拍的是實(shí)時(shí)成像效果,上面的燈都是沒有過曝的,燈珠都能看得很清楚,而且下面的車牌也能看得清楚;

3、這是一個(gè)暗光下的場景,用一般的攝像頭拍出來是黑白的,而且有很多噪點(diǎn),也看不清楚,右邊是我們eyemore拍的圖像,可以看到拍的很清楚,顏色還原也很好,這個(gè)場景是我們實(shí)驗(yàn)室經(jīng)常演示給客戶看的,我們公司把它叫做eyemore,意思是比眼睛看的更清楚。

這幾個(gè)場景下基本上可以驗(yàn)證一點(diǎn),在逆光和暗光的情況下,我們做的視覺比眼睛的視覺能力更強(qiáng)。

最后的場景是一個(gè)人背光的畫面,我們經(jīng)常會(huì)看到這樣的場景,拍前面的人會(huì)過曝,但在我們屏幕上顯示的實(shí)時(shí)畫面就是精準(zhǔn)的還原顏色。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

上面這幾個(gè)觀點(diǎn)是我想用來說明前面提到的這些問題,包括復(fù)雜光線、暗光、逆光,比如隧道等等這些常見的場景。另外我也想引出下一個(gè)話題“動(dòng)態(tài)范圍”,在汽車中我們可以將大部分的問題歸結(jié)為動(dòng)態(tài)范圍不夠,可能大家對(duì)動(dòng)態(tài)范圍這個(gè)概念不太清楚,實(shí)際上用動(dòng)態(tài)范圍是一個(gè)很復(fù)雜的事情。由于我們是做這一行的,所以我們非常清楚,甚至可以說動(dòng)態(tài)范圍是導(dǎo)致復(fù)雜光線問題最主要的原因。

在自動(dòng)駕駛中大概90%以上的場景都可以用動(dòng)態(tài)范圍不夠來歸納,因?yàn)樽詣?dòng)駕駛不會(huì)經(jīng)常遇到完全黑的環(huán)境,至少我們的車是有燈的,周邊也不會(huì)很黑。簡單來講,動(dòng)態(tài)范圍就是最亮地方和最暗地方的光強(qiáng)比值,這個(gè)比值可以說是非常嚇人的。由于人眼會(huì)自動(dòng)處理動(dòng)態(tài)范圍,因此我們感覺上反差沒有那么大,比如對(duì)著夕陽,就是在逆光的時(shí)候,夕陽和前面人的反差可能會(huì)有1萬倍或者幾萬倍,包括對(duì)著月亮的時(shí)候也是一樣的,各種各樣的場景光源和被調(diào)動(dòng)的反差是非常大的。

因?yàn)槲覀兊难劬?huì)自動(dòng)處理這種反差,所以我們的大腦就感覺不到,感覺好像就差幾倍或幾十倍,實(shí)際上是遠(yuǎn)遠(yuǎn)不止的,這就是動(dòng)態(tài)范圍中一個(gè)比較麻煩的問題,明明眼睛看的清楚,感覺光線的反差也就是十倍或者二十倍,但就是識(shí)別不了,實(shí)際上這個(gè)動(dòng)態(tài)范圍遠(yuǎn)遠(yuǎn)不止我們所感覺的范圍值。對(duì)于動(dòng)態(tài)范圍的概念,我們要理解三個(gè)值,第一個(gè)是環(huán)境中動(dòng)態(tài)范圍的值,比如在剛才講的大燈的情況下,那個(gè)大燈光源是特別亮的;第二個(gè)就是車牌和光源的反差叫作實(shí)際環(huán)境的動(dòng)態(tài)范圍值;第三個(gè)動(dòng)態(tài)范圍值是Sensor的動(dòng)態(tài)范圍值,也就是Sensor最大能夠記錄的動(dòng)態(tài)范圍值。

我們通常講,一個(gè)Sensor有多少個(gè)dB,指的就是動(dòng)態(tài)范圍值的概念,歐盟在自動(dòng)駕駛領(lǐng)域的車規(guī)寫的比較清楚,就是120dB,也就是2的20次方,意味著最亮和最暗的反差可以有2的20次方,大家可以算一下,這個(gè)是一個(gè)非常大的數(shù)值,但是有個(gè)地方在很多時(shí)候我們很容易誤解,CMOS Sensor的值(我們叫作RAW的動(dòng)態(tài)范圍)以及后面識(shí)別軟件可用的值,這兩個(gè)值經(jīng)常是不對(duì)等的,傳統(tǒng)ISP存在一個(gè)非常大的問題,就是盡管CMOS的動(dòng)態(tài)范圍很高,但沒辦法輸出給后面的識(shí)別軟件。

傳統(tǒng)的ISP可能就是八位的,八位ISP的動(dòng)態(tài)范圍是48dB,盡管前面接了一個(gè)120dB的CMOS Sensor,這個(gè)ISP本身也并不具備處理該動(dòng)態(tài)范圍的能力,它輸出的動(dòng)態(tài)范圍是不夠的,所以這三個(gè)值大家要去理解。如果環(huán)境值能夠被最后可用的值裝得下動(dòng)態(tài)范圍,那么這個(gè)信息基本上就不會(huì)損失,也不會(huì)有特別大的問題,但很多時(shí)候環(huán)境的反差特別大,這時(shí)要么裁掉亮部,要么裁掉暗部,就相當(dāng)于很多時(shí)候現(xiàn)場的環(huán)境是有20個(gè)車道的,突然之間前面變成只有四車道或者八車道,這樣其他的車就開不進(jìn)去了,這就是動(dòng)態(tài)范圍的概念,所以信息被大量丟失。

我們經(jīng)常碰到一些客戶會(huì)問,我們用的攝像頭模組的動(dòng)態(tài)范圍是120dB或者100dB的,為什么測出來的效果這么差?有一種可能是因?yàn)镮SP的輸出沒有這個(gè)能力,但他也并沒有標(biāo)錯(cuò),他標(biāo)的CMOS是可能有這么高范圍值的,因此大家一定要確認(rèn)。120dB可以說是接近我們?nèi)搜鄣奶幚砟芰?,在隧道里面的?dòng)態(tài)范圍是不會(huì)超過120dB的,大概100dB就能解決大部分的問題,除非在隧道出口就有一個(gè)太陽正對(duì)著。剛剛也講過了120dB對(duì)應(yīng)著2的20次方,如果是在CMOS中,相當(dāng)于要用20位的數(shù)據(jù)來處理動(dòng)態(tài)范圍。

通常情況下,我們的ISP都是八位的,用八位的ISP是承載不了20位的ISP的。在前面看到的幾段視頻中,大鏡頭逆光那部分基本上是接近120dB的效果,如果真正實(shí)現(xiàn)端到端的120dB,就需要用到AI識(shí)別軟件,如果輸出已經(jīng)是120dB的圖像,那就可以解決絕大部分現(xiàn)場復(fù)雜光線的問題。晚上特別容易出現(xiàn)動(dòng)態(tài)范圍寬的問題,因?yàn)榘档牡胤綍?huì)特別暗,而亮的地方又是個(gè)燈,這兩個(gè)反差特別容易變大,因此在晚上動(dòng)態(tài)范圍特別容易出問題。

其中有一個(gè)難點(diǎn),目前所有做AI識(shí)別和訓(xùn)練的庫用到的圖片都是基于八位的JPEG,但我們很難去改變這個(gè)東西,這是一個(gè)歷史原因。如何用20位的東西輸入到8位中來呢?大家可能知道有個(gè)傳統(tǒng)的技術(shù)叫做Tone Mapping,但在歷史上并沒有人能很好地把它做好。eyemore花了很長的時(shí)間做了很多新型的算法來使得在八位JPEG標(biāo)準(zhǔn)下的輸出能夠承載20位的動(dòng)態(tài)范圍值。在剛剛的視頻里面也有這個(gè)概念,這些都是標(biāo)準(zhǔn)的視頻,所有動(dòng)態(tài)范圍的信息都已經(jīng)在里面了,并沒有過曝。

動(dòng)態(tài)范圍經(jīng)常會(huì)有一些處理的情況,包括單次曝光和多次曝光。對(duì)于多次曝光,我們目前的手機(jī)在逆光時(shí)也清晰,比如OPPO和華為手機(jī),他們都是通過多次曝光,也就是拍幾張照片進(jìn)行合成,這種方式的問題在于場景受限,對(duì)于靜止的物體是可以的,但在車?yán)锩孢@種方式是有很大問題的,因?yàn)檐囋诟咚俚剡\(yùn)動(dòng),這時(shí)如果進(jìn)行多次曝光合成的話是會(huì)有很多問題的,所以單次曝光會(huì)是一個(gè)更好的方案。另外動(dòng)態(tài)范圍要適應(yīng)各種各樣的場景,我們也花了幾年的時(shí)間去對(duì)動(dòng)態(tài)范圍進(jìn)行調(diào)整和處理,使它在各種各樣的場景下都能夠正常運(yùn)行。

如果場景適應(yīng)性不夠,動(dòng)態(tài)范圍會(huì)影響很多東西,比如顏色不對(duì)、邊緣不清晰、邊緣上有很多條紋、亮度過曝等問題都是動(dòng)態(tài)范圍導(dǎo)致的。了解過專業(yè)電影攝像機(jī)的人都知道攝像機(jī)的Log格式,這是介于RAW和JPEG之間的一種壓縮格式,其中動(dòng)態(tài)范圍是保留的,但我們做的是不一樣的。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

接下來我們要在鏈條中了解成像的概念是什么?做自動(dòng)駕駛以及ADAS方案的人可能更關(guān)注的是攝像頭,而攝像頭里面用的方案可能是一個(gè)模組,模組中會(huì)有芯片,比如安防里面可能用海思的、OV的,這些芯片會(huì)有很多功能,其中成像這塊是個(gè)IP,有著專門的內(nèi)核,這幾個(gè)不同的措施對(duì)應(yīng)著不同的產(chǎn)業(yè)鏈,我們可能會(huì)比較關(guān)心輸出的接口是什么?輸出的接口可能是光纖的、USB的以及網(wǎng)口的,其中輸出接口又分為內(nèi)部接口和外部接口,這里我們會(huì)比較關(guān)注成像過程中的延時(shí),而延時(shí)有很多環(huán)節(jié),包括有曝光的延時(shí)、成像算法產(chǎn)生的延時(shí)以及傳輸中的延時(shí)。

在成像引出來時(shí)可能延時(shí)是非常低的,只有幾十行的曝光時(shí)間,就是一幀的幾十分之一,但是如果你用USB輸出,那么USB要在接收端顯示,就必須要緩沖一幀,假如一幀包含的時(shí)間是二十五分之一,產(chǎn)生40毫秒延時(shí),因此可以看到延時(shí)是不同行業(yè)的不同環(huán)節(jié)產(chǎn)生的。另外是車規(guī),在自動(dòng)駕駛中,芯片在汽車行業(yè)中都是有滯后的,主要是由于汽車行業(yè)周期太長了,目前很多處理器要滿足車規(guī)也是有難度的。在不同的層級(jí)解決的問題是不一樣的,有些是通過攝像頭或者鏡頭解決,有些是通過模組或者芯片解決,還有一些是由于芯片本身的屬性所決定的,因此我們很難通過所謂的Tuning方式來解決這些技術(shù)問題。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

目前所有汽車的安防攝像頭都來源于同一個(gè)源頭“數(shù)碼相機(jī)”,比如索尼、尼康和佳能的單反以及電影的攝像機(jī)及高端產(chǎn)品,在安防中,都是先有數(shù)碼相機(jī)才有數(shù)碼攝像頭,相比于這些專業(yè)的設(shè)備,汽車中的安防攝像頭都是非常低端的。我們每個(gè)人可能都有開車的經(jīng)驗(yàn),都知道車上的攝像頭實(shí)在是讓人難受,比手機(jī)的都要差很多,因此核心最高端的成像引擎都是日本公司做的,而其他的公司都是來copy或者抄他們同樣的架構(gòu)來實(shí)現(xiàn)。

傳統(tǒng)的攝像頭拍出來的圖片是給人看的,在過去的很多年里,大部分做圖像的包括做手機(jī)或者相機(jī)的,都把很多功夫花在了P圖上面,就是怎么樣讓顏色變得更好看一點(diǎn),但這對(duì)于識(shí)別來講是沒有任何幫助的。在AI之前的所有相機(jī)和成像技術(shù)都是做來給人看的,但在AI開始之后,包括自動(dòng)駕駛的圖像都是要給機(jī)器看的,這是一個(gè)非常大的變革,從膠卷時(shí)代轉(zhuǎn)到數(shù)碼時(shí)代再到AI時(shí)代,這對(duì)每個(gè)行業(yè)都有很大的變革,而很多傳統(tǒng)的P圖方式對(duì)于識(shí)別是沒有什么效果提升的。

目前手機(jī)相機(jī)中會(huì)有很多像素,做圖像識(shí)別的都知道,識(shí)別對(duì)于像素的要求并不高,關(guān)鍵的是像素的質(zhì)量,像素的質(zhì)量比像素的數(shù)量要更加重要,像素的質(zhì)量反映出來的是信噪比,整個(gè)圖上的信噪比越高,那么圖像的識(shí)別就會(huì)越準(zhǔn)確。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

相信做視覺的人都用過激光雷達(dá),我認(rèn)為激光雷達(dá)產(chǎn)生的原因主要是因?yàn)楝F(xiàn)在攝像頭的成像品質(zhì)太差,無法很好地處理一些復(fù)雜關(guān)系。由于還有一些特殊場景,比如下雨、霧天遮擋等等,因此激光雷達(dá)變得越來越重要。激光雷達(dá)和視覺相比,我個(gè)人認(rèn)為主要有三個(gè)大方面:

1,成本,數(shù)字芯片的成本是可以無窮低的,這是被證明過的;而激光雷達(dá)它是一個(gè)光機(jī)電一體化的產(chǎn)品,它是成本不一定能夠做到很低;

2,從生態(tài)來看,視覺的生態(tài)是一個(gè)開放的生態(tài),不只是在自動(dòng)駕駛,在人臉識(shí)別等各個(gè)領(lǐng)域都做的特別多,因此它是個(gè)開放的生態(tài);而激光雷達(dá)更多的是一個(gè)封閉的生態(tài),做雷達(dá)的人自己在做著各種各樣的模型和學(xué)習(xí)訓(xùn)練,很難把它變成一個(gè)完全開放的生態(tài);

3,從效率上來看,視覺的效率是非常高的,比如我們能經(jīng)??吹揭幻腌姰a(chǎn)生多少個(gè)T的數(shù)據(jù)。而激光雷達(dá)在很多時(shí)候數(shù)據(jù)的信息量非常少,只是相當(dāng)于一個(gè)非常低分辨率的黑白照片,這跟視覺有很大的差別。

我們跟特斯拉也會(huì)有一些交流,特斯拉認(rèn)為以后的自動(dòng)駕駛一定要解決全天候的被動(dòng)光學(xué)成像,意思是在各種光線環(huán)境下都能夠看得很清楚,其實(shí)就是eyemore所做的復(fù)雜光線的事情。目前很多人都認(rèn)為多傳感器有用,但我認(rèn)為多傳感器有一個(gè)悖論,就是當(dāng)每一個(gè)傳感器都不可靠的時(shí)候,加上更多的傳感器不會(huì)提高整個(gè)系統(tǒng)的可靠性。假如我每個(gè)系統(tǒng)都是99%的可靠性或者可用性,那么多加一個(gè)系統(tǒng)這叫作備份。但是如果每個(gè)系統(tǒng)的功能只有60%,你放五個(gè)60%就相當(dāng)于五個(gè)60%相乘,乘出來以后會(huì)發(fā)現(xiàn)整個(gè)系統(tǒng)的不穩(wěn)定性肯定是更高。當(dāng)然現(xiàn)在每個(gè)方面都在進(jìn)步,以后肯定還是多處理器以及多傳感器融合的方式。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

下面介紹一下我們的成像引擎是怎么解決這個(gè)問題的。成像引擎是個(gè)非常復(fù)雜的系統(tǒng),并沒有大家想象得那么簡單,我們用了四年時(shí)間只做這一個(gè)事兒,而且我們團(tuán)隊(duì)在這方面都有很豐富的經(jīng)驗(yàn),做這個(gè)事情之前我們會(huì)先給自己定目標(biāo):

1,我們的輸入和輸出必須都是傳統(tǒng)行業(yè)標(biāo)準(zhǔn)的CMOS模式,都是大家可以識(shí)別的圖像輸入和輸出;
2,我們要求是所見即所得,就是在取景的時(shí)候,原始看到的東西就是最后所得到的東西,不會(huì)允許有很多后端軟件的處理在我們環(huán)境里面;
3,我們希望能夠適應(yīng)絕大部分場景,我們不會(huì)允許有很多種模式都讓它去試,而是一個(gè)成像引擎應(yīng)該能夠適應(yīng)絕大部分的產(chǎn)品;
4,不能有明顯的副作用,之前做視覺成像的,包括圖像的識(shí)別處理都有很多明顯的副作用,比如由多幀合成的方式來解決動(dòng)態(tài)范圍的問題,副作用就是只要人一動(dòng)它就有拖影,我們也是不允許的;
5,要做統(tǒng)一的架構(gòu),并不是不同的場景有不同的系統(tǒng)架構(gòu);
6,要兼顧全局和局部,不能是整體看上去很好,而局部卻是不好的,或者局部是挺好的,而全局看上去結(jié)果很差;
7,以顏色還原度為唯一的準(zhǔn)繩,各種情況下顏色還原度怎么樣?我們的要求是在不正常光線環(huán)境下的結(jié)果也跟正常光線環(huán)境下的結(jié)果一樣的。

這就是我們創(chuàng)立公司去合作開發(fā)架構(gòu)時(shí)給自己定的原則,做所有的東西,如果沒有原則和方向,就需要去試驗(yàn)現(xiàn)存的幾百種方法,系統(tǒng)也很難成熟,這也是目前我們?yōu)槭裁磿?huì)碰到這么多視覺問題的原因。

現(xiàn)在我們的實(shí)現(xiàn)方式有幾個(gè),第一,我們做了一個(gè)全新的硬件處理架構(gòu),這個(gè)架構(gòu)是能夠處理所有的RAW數(shù)據(jù),不管它是多少位的,在這個(gè)架構(gòu)之上,我們要做到很多以效果為核心的新算法,包括很多降噪的算法以及解決動(dòng)態(tài)范圍變化的算法。

成像端和所有的算法都是理論值,它能不能夠解決你的問題,現(xiàn)場各種光線環(huán)境是有無窮多種組合,我們也花了大量的時(shí)間去測各種各樣的場景,最后才變得開始熟練,它在絕大部分場景下都是正常的。這三個(gè)東西加在一起,我們把它叫作一個(gè)新的成像引擎技術(shù),由于這個(gè)與ISP的出發(fā)點(diǎn)是完全不一樣的,因此我們不把它叫做ISP。有很多客戶和合作伙伴在看到我們公司的展示后都會(huì)覺得很驚奇,都會(huì)問是怎么做到的,是不是發(fā)明了什么新的原理。其實(shí)我們并不是發(fā)明一個(gè)新的原理和paper,而是理解Know How,就是不斷的經(jīng)驗(yàn)值積累,這就像發(fā)動(dòng)機(jī)一樣,所有發(fā)動(dòng)機(jī)的原理都是一樣的,但是做5.0的發(fā)動(dòng)機(jī)跟做1.0的發(fā)動(dòng)機(jī),其中有很多的Know How是不一樣的。

最后一個(gè),只有看到結(jié)果才能驗(yàn)證理論值是否有用,尤其是適應(yīng)環(huán)境的時(shí)候更要看到這個(gè)結(jié)果,需要在這個(gè)地方測過它是OK的它才是OK的,這就是eyemore所做的事情,跟傳統(tǒng)ISP的思路是完全不一樣的,ISP是實(shí)現(xiàn)功能,而我們是要解決問題,我們解決的問題出發(fā)點(diǎn)是因?yàn)閭鹘y(tǒng)所有的ISP在幾十年以來都沒有解決好復(fù)雜光線下的問題,在以前來說,這些都是沒有關(guān)系,因?yàn)榕恼张牡貌缓?,我可以到光線好的地方拍。但到了AI之后,比如自動(dòng)駕駛汽車事故,包括Uber撞人等問題都是因?yàn)榄h(huán)境太復(fù)雜所造成的,因此是必須要解決這個(gè)問題的,同時(shí)這也是我們給自己設(shè)定的方向,以及在這個(gè)方向我們花了四年時(shí)間來實(shí)現(xiàn)這些東西。

【PPT下載】如何克服ISP解決不了的復(fù)雜光線難題?眼擎科技朱繼志給出了答案!

我們發(fā)布了一個(gè)針對(duì)汽車行業(yè)的參考設(shè)計(jì)方案,叫作DX120。它包含兩個(gè)方面,第一個(gè)方面,從某種層面來看,前端輸入的是車規(guī)級(jí)Sensor;第二個(gè)方面,輸出的是120dB和標(biāo)準(zhǔn)的八位JPEG或者YUV格式的圖像,也就是說后面的識(shí)別軟件可以把它當(dāng)成一個(gè)正常的視頻進(jìn)行瀏覽處理,但是所有動(dòng)態(tài)范圍的信息已經(jīng)包含在里面,同時(shí)也是采用了我們的全新的eyemore成像引擎架構(gòu),它是一個(gè)完整的模組,也可以說是技術(shù)方案,對(duì)于所提供的標(biāo)準(zhǔn)接口,我們也會(huì)不斷地去豐富我們的接口,包括USB、光纖、HDMI網(wǎng)口以及可定制的接口。

這個(gè)產(chǎn)品會(huì)在5月底正式上市,對(duì)于做自動(dòng)駕駛汽車的人來說,首先它是一個(gè)測試產(chǎn)品,我們會(huì)提供一個(gè)類似于工業(yè)相機(jī)大小的模組,它包含供電設(shè)備以及輸出的接口。關(guān)于成像方面的東西,一定是要先要測試效果能不能滿足,然后才是第二步的接口方案問題。我們是來幫大家來解決這個(gè)問題的,如果這個(gè)方案不能解決問題,就可以不用考慮我們的方案。而我們的方案是能夠適應(yīng)95%以上的復(fù)雜環(huán)境的,包括動(dòng)態(tài)范圍不夠場景下的問題。

在拿到這個(gè)模組去測試之后,如果測試的結(jié)果跟大家的要求是匹配的,能解決問題的,這時(shí)我們?cè)偃贤ň唧w的對(duì)接模式(包括有硬件接口和軟件接口),在5月底大家就可以拿到這個(gè)模組的成品了。

我的介紹大概就是這么多內(nèi)容,最后有一個(gè)小廣告,eyemore,意思是要讓AI機(jī)器比人眼要看得更清楚,我們只做眼睛,不做識(shí)別的東西。在自動(dòng)駕駛領(lǐng)域,我們要做的事情就是讓車比人眼看得更加清楚,能夠解決目前很多在視覺成像上的痛點(diǎn)。這就是我今天分享的內(nèi)容,謝謝大家。

Q&A環(huán)節(jié)

提問一
熊林云-Motovis-ISP工程師

1、自動(dòng)駕駛的模組鏡頭選型需要重點(diǎn)考慮哪些參數(shù)指標(biāo)?
2、自動(dòng)駕駛技術(shù)用到的ISP除了3A,sharpen,denoise等基礎(chǔ)功能外,還需要哪些必要的功能,如WDR?

朱繼志:1,這些參數(shù)指標(biāo)在上面也講過了,鏡頭是一個(gè)模擬器件,很多時(shí)候大家一定要去實(shí)測。在自動(dòng)駕駛領(lǐng)域,影響最大的因素是炫光,造成不同的炫光,可能有鏡頭的原因,也有CMOS和成像的原因,這是綜合因素。但是鏡頭是第一關(guān),鏡頭對(duì)炫光的影響是復(fù)雜光線下影響最大的,因此這個(gè)一定要測。很難用一個(gè)參數(shù)就直接表述出來。

2,ISP是個(gè)籠統(tǒng)的概念,所以我們叫作成像引擎。前面也講過,ISP最基本的功能,首先是CMOS Controller,第二部分是信號(hào)的處理,第三部分是圖像的處理,最后是接口上面的事情。WDR對(duì)傳統(tǒng)ISP來講是可用可不用的,做的好不好沒有人關(guān)注,但是在動(dòng)態(tài)范圍處理是自動(dòng)駕駛中必須要有的基本功能,比如120dB,那么可能要90個(gè)dB或者是100個(gè)dB。

提問二
熊林云-Motovis-ISP工程師

1、后端視覺理解對(duì)于前端成像和isp圖像處理有哪些重點(diǎn)要求?
2、自動(dòng)駕駛主要場景分哪幾類,建議ISP用何策略識(shí)別和切換場景參數(shù)?
3、對(duì)于多路Sensor接入,如何幀同步和AE同步?不同角度的成像如何盡量保持拼接后整體畫面的均衡,拼接處過渡自然?

朱繼志:1,這是個(gè)很好的問題。通俗來講,在沒有大腦之前,前面的眼睛是很差的,但在AI大腦強(qiáng)大之后發(fā)現(xiàn)眼睛不行了,要提高眼睛的能力。比如按照我們的方案發(fā)展下去,眼睛也會(huì)變得很強(qiáng)大,這就產(chǎn)生了第三個(gè)問題,大腦跟眼睛該如何交互?我們?nèi)说拇竽X跟眼睛交互是一件非常神奇的事情,大腦跟眼睛是協(xié)同工作的,目前并沒有很好的方法來鑒定。我也跟很多人探討過這個(gè)問題,對(duì)于后端的識(shí)別,哪方面做的好一點(diǎn)更容易識(shí)別等問題。在以前沒有識(shí)別的時(shí)候,可能還能做一些事情,現(xiàn)在到AI深度學(xué)習(xí)就變得特別麻煩。

為什么會(huì)特別麻煩呢?因?yàn)锳I識(shí)別的深度學(xué)習(xí)層次太多了,可能很少有做AI、做Training的人能夠把底層的東西講清楚,這個(gè)系統(tǒng)太復(fù)雜了。從原則上來講肯定是希望邊緣越清晰也好,但是這些東西都有待于驗(yàn)證,因此以后我們也會(huì)逐漸地去跟合作伙伴以及客戶一起完善和升級(jí)。

2,實(shí)際上,我認(rèn)為這個(gè)問題是有一定道理的,但很多時(shí)候它是個(gè)偽命題。要去知道某個(gè)場景是很難的,無論是前端還是后端或者是成像端去明確場景都是不太現(xiàn)實(shí)的。最理想的方案是不用分場景,一個(gè)模式能夠自動(dòng)適應(yīng)絕大部分場景。這樣,在后面少部分的情況下,比如在我們能檢測到但識(shí)別不出來的時(shí)候,可以將這個(gè)指令發(fā)給前端和成像端來解決,這是一種比較好的方式。

場景最好是在成像端解決,這就是eyemore做的方向和原則,我們的目標(biāo)就是要讓成像端無論在什么環(huán)境或者什么場景下,所有看到的都是清楚的,就跟光線正常一樣,這樣以來,后端的識(shí)別軟件就可以什么都不用管了。傳統(tǒng)的方式在很多行業(yè)里面是可以人工去控制的,但是在自動(dòng)駕駛和AI里面就不是這個(gè)邏輯了,因?yàn)闆]辦法在那么短時(shí)間之內(nèi)進(jìn)行人工干涉或者讓系統(tǒng)自動(dòng)去識(shí)別場景,因此我們認(rèn)為最好的方案就是前面成像端能夠解決絕大部分環(huán)境適應(yīng)性問題,這就是我們做的事情。

3,前面的一個(gè)問題是個(gè)非常具體的問題。對(duì)于幀同步,在前端成像部分會(huì)有相關(guān)的硬件接口。在不同的Sensor之間,需要多個(gè)攝像頭之間協(xié)同處理,這是硬件層面的問題。對(duì)于硬件的接口方式,我們都有各種硬件接口和軟件的控制協(xié)議,因?yàn)樾袠I(yè)沒有標(biāo)準(zhǔn)的東西,是需要大家去探討的。對(duì)于不同角度的成像如何盡量保持拼接后整體畫面的均衡,拼接處過渡自然,這是一個(gè)特別綜合的問題,這個(gè)問題不僅僅涉及到圖像拼接,還有每個(gè)畫面本身的程度。

比如我們看到一個(gè)很自然的圖像,這個(gè)圖像可能有一邊很暗,一邊很亮,這樣對(duì)后面的識(shí)別拼接一定是很有困難的。而我們更關(guān)注的是從源頭上能夠把每一個(gè)圖像都做的更好,那么在后面拼接的時(shí)候就會(huì)更容易。另外是拼接的算法問題,也有一部分屬于源的問題,從源的層面來看,永遠(yuǎn)都只有一個(gè)原則,就是它的保真度越高越好,這樣它能夠看的非常清楚,后面的拼接也會(huì)跟識(shí)別一樣變得更加容易。

提問三
王潤柱-征圖三維-slam

怎樣將視覺slam應(yīng)用到夜間?

朱繼志:我自己個(gè)人也花了很多時(shí)間在晚上各種各樣的環(huán)境下進(jìn)行測試,發(fā)現(xiàn)夜間主要有高感光度和動(dòng)態(tài)范圍兩個(gè)問題。其實(shí)在很多道路上主要的問題不是感光度,因?yàn)槎加新窡艉透鞣N各樣的燈,而更多是動(dòng)態(tài)范圍的問題。如果在很暗的情況下,它的動(dòng)態(tài)范圍容易變大。舉個(gè)很簡單的例子,比如分別有個(gè)穿白衣服和黑衣服在一個(gè)正常燈光的情況下,這兩個(gè)的反差不會(huì)很大,但是如果在一個(gè)很暗的情況下,白色和黑色的反差會(huì)特別大,動(dòng)態(tài)范圍會(huì)變得更寬,因此相比于白天,晚上的問題會(huì)更多。

對(duì)于SLAM該怎么應(yīng)用。首先我們不做SLAM,但是我們認(rèn)為SLAM也是一樣的原則,只要圖像的信噪比越高,噪點(diǎn)越少,信息量越大,那么SLAM的準(zhǔn)確度就會(huì)越高,我相信未來SLAM的發(fā)展會(huì)隨著成像水平的提升而越來越高,如果信噪比還原得非常精準(zhǔn),那么SLAM的精度也會(huì)大幅度的提升,SLAM有SLAM對(duì)應(yīng)的算法,源圖也非常重要,如果源圖是模糊的,噪點(diǎn)很多,就會(huì)極大地影響SLAM的精確度。

提問四
王吉志-貴師大-經(jīng)管

ISP可否增加圖像采集層數(shù),削減收取信息的缺失,多層疊加,更趨于實(shí)際數(shù)據(jù)?

朱繼志:對(duì)于ISP的層數(shù),我不知道你是怎么理解的。其實(shí)這個(gè)問題回歸到本質(zhì)上來講還是動(dòng)態(tài)范圍的處理。信息量越大,削減的信息就越多,你說的多層疊加應(yīng)該是指多幀的合成,通常情況下,我們是不用多幀合成的方法的,因?yàn)槎鄮铣扇菀讓?dǎo)致在運(yùn)動(dòng)時(shí)出現(xiàn)很多不可預(yù)知的副作用,這個(gè)在前面也講過。要注意到在我們提高了一個(gè)東西的同時(shí)會(huì)不會(huì)損失其他東西。這是一個(gè)整體的概念,不能單方面地把參數(shù)提高。