3D視覺(jué)技術(shù)的發(fā)展
近年來(lái),隨著芯片技術(shù)的發(fā)展以及相關(guān)軟硬件系統(tǒng)的深入,視覺(jué)傳感器得到了極為廣泛的應(yīng)用。社會(huì)越來(lái)越智能,可以使用人工智能和大數(shù)據(jù)技術(shù)將人們記錄下來(lái)的圖像智能地利用起來(lái),而不是用一個(gè)個(gè)柜子將圖像、視頻束之高閣。
從膠卷,到CCD 再到現(xiàn)在特別成熟、隨處可見(jiàn)的CMOS,我們對(duì)圖像傳感器的性能追求也逐漸發(fā)生了改變。shou機(jī)上開(kāi)始出現(xiàn)前攝、后攝,后攝也出現(xiàn)了俗稱(chēng)的“浴霸”、“加特林”。在算法的加持下,每顆攝像頭的用處都不一樣。
而18、19年將是3D圖像傳感器起飛與騰飛的兩年。有了3D傳感器,我們就更容易做基于事件的分析并直接指導(dǎo)我們身邊圖像的優(yōu)化做出體感游xi、人臉支付、機(jī)器人自動(dòng)避障、工業(yè)自動(dòng)分揀等應(yīng)用。
2016年,AlphaGo成為個(gè)不借助讓子而擊敗圍棋職業(yè)九段棋手李世石的計(jì)算機(jī)圍棋程序,這件事引起了人類(lèi)的轟動(dòng),也展開(kāi)了各種討論。隨之而來(lái)的是人工智能鋪天蓋地的宣傳,這給了無(wú)數(shù)人信心,機(jī)器智能化的大浪潮撲面而來(lái)。
現(xiàn)在AI是一個(gè)很火的詞。很多人都想做AI,也有很多人想往AI上面靠,AI的出現(xiàn)就相當(dāng)于我們有了一個(gè)聰明的大腦。以前的處理器,只能處理一個(gè)特定場(chǎng)景的問(wèn)題,AI給這個(gè)世界帶來(lái)了可以自我學(xué)習(xí)、自我改進(jìn)的功能,特別是對(duì)復(fù)雜場(chǎng)景的處理,AI更“聰明”。
可是只有AI,自動(dòng)駕駛也做不起來(lái),它還需要攝像頭、激光雷達(dá)、毫米波雷達(dá)等各類(lèi)傳感器。
人臉識(shí)別也是非常好的一項(xiàng)技術(shù),可以用來(lái)做人臉識(shí)別閘機(jī)、人臉無(wú)感支付,但是現(xiàn)在很多時(shí)候人臉識(shí)別還是容易受到環(huán)境干擾、hei客攻擊。
所以,想把AI做好,傳感器對(duì)我們進(jìn)入智能時(shí)代至關(guān)重要。有了3D傳感器,掃地機(jī)不會(huì)跌跌撞撞,僅憑一張照片一個(gè)視頻也騙不開(kāi)shou機(jī)解鎖,自動(dòng)駕駛也能檢測(cè)到來(lái)往行人、車(chē)輛,變得更安全。
3D傳感器在AI幾乎所有的領(lǐng)域都有廣泛的應(yīng)用,比如新零售,自動(dòng)駕駛,個(gè)性化教育,智慧醫(yī)療,智能安防,智能監(jiān)護(hù),智能機(jī)器人等等。 2019年,我們也將迎來(lái)3D視覺(jué)技術(shù)在各個(gè)領(lǐng)域的廣泛應(yīng)用。
1、 雙目視覺(jué)
談到3D視覺(jué),主要就是指圖像不僅僅是二維的XY坐標(biāo),還要感受被拍照物體的距離遠(yuǎn)近,大小尺寸,也就是空間坐標(biāo)Z。
我們?nèi)丝恐笥覂芍谎劭梢怨烙?jì)出前方的門(mén)在3m處,桌子上的茶杯在1.5m處,遠(yuǎn)處的樹(shù)大概在10m。仿生學(xué)是被應(yīng)用得非常好的,通過(guò)兩只攝像頭,無(wú)人機(jī)可以分辨前方障礙物一根電線桿的距離。因?yàn)樵谒淖笱壑?,物體坐標(biāo)為A,相應(yīng)的視場(chǎng)角度α, 右眼坐標(biāo)為B,相應(yīng)的視場(chǎng)角度β,而基線距離x是早先就在機(jī)械結(jié)構(gòu)上確定的。這樣通過(guò)下面的公式,我們就可以得到空間點(diǎn)的z軸距離。
這個(gè)方法已經(jīng)沿用了很多年,從技術(shù)上來(lái)說(shuō),視野里面所有的點(diǎn)都不可靠了,不能確定左右眼中的兩個(gè)點(diǎn)是不是同一個(gè)點(diǎn)。它的優(yōu)點(diǎn)就是觀測(cè)距離遠(yuǎn),精度高,成本相對(duì)較低。缺點(diǎn)就是面對(duì)單一場(chǎng)景,例如一面白墻,波動(dòng)的水面,皚皚的白雪,綠油油的草地,我們?nèi)硕紩?huì)失去參考點(diǎn),這時(shí)候無(wú)人機(jī)或處理器就無(wú)法計(jì)算出深度。
這也就是為什么雙目攝像頭鮮少應(yīng)用在shou機(jī)、人臉識(shí)別、人臉解鎖等方面。
另外一個(gè)問(wèn)題是,如果我們要將物體表面做一個(gè)高分辨率深度探測(cè),那么處理器先要做多點(diǎn)的圖像數(shù)據(jù)匹配,這個(gè)匹配算法的算力要求就超乎一般人想象,然后再執(zhí)行圖中公式的計(jì)算,而這個(gè)運(yùn)算是三角函數(shù)級(jí)別,比較復(fù)雜??梢韵胂笕绻枰獙⑷四槺砻孀?000個(gè)點(diǎn)的深度信息建模,那么所需要的運(yùn)算量是多么的復(fù)雜。
2、結(jié)構(gòu)光
2017年iPhone X面世,它采用3D結(jié)構(gòu)光的方式,將我們?nèi)四樀?D數(shù)據(jù)測(cè)算出來(lái),又一次了技術(shù)潮流。
對(duì)于結(jié)構(gòu)光,其實(shí)也是一個(gè)很古老的技術(shù),只不過(guò)蘋(píng)果可以把它做到shou機(jī)里面,還是比較讓大家吃驚的。
左圖是一個(gè)3d結(jié)構(gòu)光的簡(jiǎn)單實(shí)驗(yàn)版。通過(guò)右邊的投影儀可以投影出黑白相間的條紋狀圖案,打在一個(gè)狐貍面具上面這些條紋狀的圖案就會(huì)產(chǎn)生一定的畸變。通過(guò)CCD相機(jī)將這個(gè)畸變的形狀拍下來(lái)之后,便可以通過(guò)這個(gè)畸變的狀態(tài),去計(jì)算出這個(gè)面具相應(yīng)的凹凸不平的3D信息。比如條紋向左彎曲,就代表凸起,向右彎曲代表凹陷。
單點(diǎn)結(jié)構(gòu)光的三角測(cè)距法基本原理如右圖,激光光源打出一個(gè)很小很亮的紅點(diǎn),傳感器接收到之后,就可以在sensor表面找到這個(gè)特別亮的點(diǎn)的坐標(biāo)(x’,y’)。結(jié)合光源的投影角,基線距離b,鏡頭焦距f,就可以通過(guò)上面的公式解析出三軸坐標(biāo)(x,y,z)了。
而IPHONE X使用了3萬(wàn)個(gè)點(diǎn)的投射器,然后通過(guò)一百四十萬(wàn)像素的紅外攝像頭,將這些投射點(diǎn)的信息全部都采集回來(lái),這中間一個(gè)復(fù)雜的問(wèn)題,就是要將這3萬(wàn)個(gè)點(diǎn)每一個(gè)點(diǎn)匹配。這里面難的就是要找到打在臉上的點(diǎn)的ID,也就是得知道打出點(diǎn)的投射角,基線距離。這個(gè)匹配算法是需要非常大量的計(jì)算的。而且為了降低計(jì)算量,這3萬(wàn)個(gè)點(diǎn)的排布在我們看來(lái)是隨機(jī)的,實(shí)際是符合某種數(shù)學(xué)幾何規(guī)律的。
可以看到這個(gè)計(jì)算公式里面包含了各項(xiàng)幾何參數(shù),所以對(duì)組裝工藝要求很高,而且后期客戶(hù)將shou機(jī)摔倒了或者震動(dòng),都可能會(huì)影響3D測(cè)量精度。
另外這塊由于專(zhuān)li的保護(hù),別人很難進(jìn)入。所以業(yè)內(nèi)對(duì)于蘋(píng)果能推出這個(gè)方案,還是很佩服的,蘋(píng)果還是具備相當(dāng)強(qiáng)大的工程能力。因?yàn)镮PHONE X的利潤(rùn)率不錯(cuò),蘋(píng)果可以做這塊的事情。而別的廠商做這個(gè)就挺痛苦的,受限于成本和技術(shù)難度。
來(lái)源:光電微課堂