本發(fā)明涉及一種計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)技術(shù),屬于目標(biāo)檢測(cè)和識(shí)別的方法,具體涉及一種基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型的交通標(biāo)志識(shí)別方法和系統(tǒng),適用于圖像或視頻中的交通標(biāo)志的檢測(cè)和識(shí)別。
背景技術(shù):
近年來(lái),無(wú)人駕駛發(fā)展愈發(fā)成熟,而輔助駕駛已經(jīng)進(jìn)入實(shí)用階段,交通標(biāo)志的識(shí)別是目前智能輔助輔助駕駛系統(tǒng)最重要的模塊之一,并且是無(wú)人駕駛技術(shù)的重要組成部分。
交通標(biāo)志識(shí)別模塊通常包含定位檢測(cè)和分類(lèi)識(shí)別兩個(gè)方面。
在交通標(biāo)志的定位方面,可以定位出可能存在交通標(biāo)志的區(qū)域。已有成果均采用基于顏色的方法實(shí)現(xiàn)圖像分割,適合于交通標(biāo)志圖像分割的顏色空間包括rgb空間、hsi空間等,而本發(fā)明運(yùn)用的是rgb空間。
在交通標(biāo)志的識(shí)別方便,絕大部分學(xué)者均采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別分類(lèi)交通標(biāo)志,但是有著模型大,計(jì)算代價(jià)高,不適合移植至移動(dòng)平臺(tái)的缺陷。
因此,計(jì)算代價(jià)低、模型可移植、模型體積小、準(zhǔn)確率高的交通標(biāo)志識(shí)別模塊在無(wú)人駕駛和輔助駕駛中發(fā)揮著重要的作用。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是為了克服現(xiàn)有基于傳統(tǒng)深度學(xué)習(xí)的交通標(biāo)志識(shí)別系統(tǒng)復(fù)雜高、參數(shù)多、難以移植至移動(dòng)平臺(tái)等缺陷。
本發(fā)明改進(jìn)的技術(shù)問(wèn)題是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算量大,導(dǎo)致在移動(dòng)平臺(tái)上識(shí)別速度慢的問(wèn)題,提出了一種基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度網(wǎng)絡(luò)模型的交通標(biāo)志識(shí)別方法。
本發(fā)明技術(shù)方案包含圖像采集、圖片預(yù)處理、交通標(biāo)志識(shí)別、語(yǔ)音提醒四個(gè)模塊,如圖1。
1.圖像采集部分
該系統(tǒng)移植至移動(dòng)平臺(tái)(android平臺(tái)),通過(guò)手機(jī)攝像頭或者車(chē)載行車(chē)記錄儀獲取每幀圖像輸入圖片預(yù)處理模塊。
2.圖片預(yù)處理部分
圖片預(yù)處理分為三個(gè)模塊:顏色定位、形狀檢測(cè)、圖片縮放。
顏色定位:利用交通標(biāo)志的顏色特征(紅、黃、藍(lán)三色)可初步將交通標(biāo)志提取出來(lái)。
形狀檢測(cè):在顏色定位的基礎(chǔ)上,利用交通標(biāo)志的形狀特征(三角形、圓形、矩形),檢測(cè)出包含交通標(biāo)志的區(qū)域并截取出來(lái)。
圖片縮放:為了規(guī)范截取的圖片,將其統(tǒng)一為32*32的尺寸,并輸入交通標(biāo)志識(shí)別模塊,處理后如圖2所示。
3.交通標(biāo)志識(shí)別部分
交通識(shí)別模塊的技術(shù)方案是基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)網(wǎng)絡(luò)并利用遷移學(xué)習(xí)使其適應(yīng)交通標(biāo)志識(shí)別。緊湊型神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)原理為利用1x1的卷積核代替3x3卷積核,減少9倍參數(shù)輸入,其核心構(gòu)件為緊湊層,即將一層卷積層用壓縮層和擴(kuò)展層代替,壓縮層為1x1卷積層,擴(kuò)展層為1x1與3x3組合得到的組合層。為了適應(yīng)交通標(biāo)志識(shí)別,將圖3改進(jìn)為如圖4所示網(wǎng)絡(luò)架構(gòu)。
4.語(yǔ)音提醒部分
該網(wǎng)絡(luò)具有速度快,體積小,準(zhǔn)確率符合基本應(yīng)用標(biāo)準(zhǔn)的特點(diǎn),適用于移動(dòng)平臺(tái),并嵌入app當(dāng)中,將分類(lèi)識(shí)別出的交通標(biāo)志已語(yǔ)音提醒的方式提醒司機(jī)。
本發(fā)明的優(yōu)點(diǎn)和積極效果在于:
本發(fā)明提供一種基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型的公路交通標(biāo)志自動(dòng)識(shí)和提醒系統(tǒng),此系統(tǒng)運(yùn)用緊湊型神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí),有很高的實(shí)時(shí)性和很低的運(yùn)算量,可移植至移動(dòng)手機(jī)平臺(tái),只需利用手機(jī)便可實(shí)現(xiàn)基本的公路交通標(biāo)志識(shí)別和語(yǔ)音提醒,避免司機(jī)行車(chē)過(guò)程中疏忽導(dǎo)致的事故。
本發(fā)明的前期圖像預(yù)處理可以降低深度學(xué)習(xí)的輸入維數(shù)和圖像體積,并突出交通標(biāo)志的特征。
本發(fā)明的深度神經(jīng)網(wǎng)絡(luò)模型在使用訓(xùn)練集為gtsrb(德國(guó)交通標(biāo)志識(shí)別基準(zhǔn),germantrafficsignrecognitionbenchmark)中的訓(xùn)練集,包含訓(xùn)練圖片39,209張,測(cè)試圖片12630張)時(shí),參數(shù)比傳統(tǒng)的模型參數(shù)少上百倍,訓(xùn)練完成的權(quán)重參數(shù)文件只有4mb左右卻達(dá)到93.5%的測(cè)試精度。
本發(fā)明具有識(shí)別交通標(biāo)志的種類(lèi)多、精度高、實(shí)時(shí)性好等優(yōu)勢(shì),降低了光照變化、顏色褪色、運(yùn)動(dòng)模糊、復(fù)雜的背景等因素對(duì)圖像識(shí)別的影響,提高了抗干擾能力,識(shí)別準(zhǔn)確率高,誤識(shí)別率低。
附圖說(shuō)明
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)一步說(shuō)明。
圖1本發(fā)明交通標(biāo)志識(shí)別系統(tǒng)的模塊示意圖。
圖2本發(fā)明的圖片預(yù)處理前后對(duì)比圖。
圖3本發(fā)明的緊湊層結(jié)構(gòu)示意圖。
圖4本發(fā)明的基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說(shuō)明。
如圖所示,本發(fā)明的基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型的交通標(biāo)志識(shí)別方法和系統(tǒng)包括圖像采集、圖片預(yù)處理、交通標(biāo)志識(shí)別、語(yǔ)音提醒四個(gè)模塊。其中,圖像采集主要負(fù)責(zé)采集包含交通標(biāo)志的圖像;圖像預(yù)處理模塊主要負(fù)責(zé)檢測(cè)獲取的圖像中的交通標(biāo)志并把其區(qū)域提取出來(lái),在進(jìn)行統(tǒng)一尺寸的縮放;交通標(biāo)志識(shí)別模塊為核心模塊,利用遷移學(xué)習(xí)后的緊湊型神經(jīng)網(wǎng)絡(luò)進(jìn)行交通標(biāo)志識(shí)別分類(lèi);語(yǔ)音提醒模塊負(fù)責(zé)將識(shí)別出的交通標(biāo)志提醒司機(jī)。
模塊一:圖像采集模塊。
本發(fā)明實(shí)施例中采用自主研發(fā)的android手機(jī)app,該app使用手機(jī)自帶的攝像頭以每秒20-30幀的速度進(jìn)行錄像操作并將視頻文件保存下來(lái),并將保存的圖片實(shí)時(shí)傳輸至預(yù)處理模塊。
模塊二:圖片預(yù)處理模塊。
本發(fā)明預(yù)處理模塊分為三部分,分別為顏色定位、形狀檢測(cè)、圖片縮放三個(gè)子模塊,并已此步驟進(jìn)行圖片預(yù)處理。
步驟一:首先將獲取到的每幀圖片進(jìn)行高斯模糊處理,利用二維高斯函數(shù)計(jì)算圖片矩陣權(quán)重(x,y為周邊坐標(biāo)對(duì)于中心像素的相對(duì)坐標(biāo),σ為模糊半徑):
計(jì)算圖片的高斯模糊值:將得到權(quán)重矩陣與原有的色值矩陣相乘,得到高斯模糊后的中心像素色值。
設(shè)置紅黃藍(lán)三色的閥值,根據(jù)閥值構(gòu)建掩膜,并與高斯模糊處理后的圖片進(jìn)行像素相加的位運(yùn)算,運(yùn)用大律法進(jìn)行二值化處理,得到藍(lán)(紅或黃)色的主體位置,即顏色定位。
步驟二:首先定義與交通標(biāo)志形狀大小相符的結(jié)構(gòu)元素(矩形、三角形、圓形),得到形態(tài)學(xué)內(nèi)核,再結(jié)合此內(nèi)核利進(jìn)行形態(tài)學(xué)閉運(yùn)算(先膨脹后腐蝕),計(jì)算形態(tài)學(xué)梯度(膨脹圖與腐蝕圖之差)保留輪廓。
最后提取所得到的輪廓并利用多邊形(矩形,三角形,圓形)逼近算法得到最大矩形的輪廓,以其為標(biāo)準(zhǔn)截取出矩形圖像,排除誤差的情況下此圖像包含識(shí)別所需的交通標(biāo)志。其次步驟三:利用雙線(xiàn)性插值法對(duì)圖像進(jìn)行縮放,得到統(tǒng)一的尺寸(由相鄰的四像素計(jì)算)
(dst為輸出圖像,src為輸入圖像,對(duì)于一個(gè)目的像素,設(shè)置坐標(biāo)通過(guò)反向變換得到的浮點(diǎn)坐標(biāo)為(i+u,j+v),其中i、j均為浮點(diǎn)坐標(biāo)的整數(shù)部分,u、v為浮點(diǎn)坐標(biāo)的小數(shù)部分,則這個(gè)像素得值dst(i+u,j+v)可由輸入圖像中坐標(biāo)為(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)所對(duì)應(yīng)的周?chē)膫€(gè)像素的值決定)
dst(i+u,j+v)=(1-u)*(1-v)*src(i,j)+(1-u)*v*src(i,j+1)+u*(1-v)*src(i+1,j)+u*v*src(i+1,j+1)
模塊三:交通標(biāo)志識(shí)別模塊。
步驟一:基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建。
本模型的核心層為緊湊層,由1x1卷積核得到的卷積層(壓縮層)分別接上1x1卷積核的卷積層與3x3卷積核得到的卷積層,并組合此兩卷積層得到擴(kuò)展層,如圖。
由于圖片預(yù)處理模塊得到的圖像為32x32像素,輸入為32x32x3的像素矩陣。
第一層為卷積層,卷積核3x3,步長(zhǎng)為1,有效填充,得到的卷積層為28x28x36,并用relu函數(shù)激活。
第二層為池化層,2x2最大池化得到14x14x36矩陣。
第三層為緊湊層,首先利用壓縮層,將14x14x36輸入1x1的卷積核,深度為16,步長(zhǎng)為1,有效填充,得到14x14x16的壓縮層,其次分別用1x1卷積核和3x3卷積核進(jìn)行深度為32的擴(kuò)展,進(jìn)行組合得到14x14,x64的fire層,并用relu函數(shù)激活。
第四層為緊湊層,將第三層輸入1x1的卷積核進(jìn)行深度為64的壓縮,再分別通過(guò)1x1x72、3x3x72的卷積核進(jìn)行擴(kuò)展并組合得到14x14x144的fire層,relu函數(shù)激活。
第五層為池化層,通過(guò)2x2的最大池化得到7x7x144的池化層。
第六層為卷積層,通過(guò)1x1的卷積核,深度為43,步長(zhǎng)為一,有效填充,得到7x7x43的壓縮卷積層。
第七層為平均池化層,通過(guò)7x7x43的平均池化操作得到1x1x43的平均池化層。
通過(guò)平鋪操作轉(zhuǎn)化為43的1維矩陣并與偏置相加得到43個(gè)類(lèi)型的輸出。
模型框架圖3,步驟二:訓(xùn)練模型。
訓(xùn)練集為gtsrb(德國(guó)交通標(biāo)志識(shí)別基準(zhǔn),germantrafficsignrecognitionbenchmark)中的訓(xùn)練集,包含訓(xùn)練圖片39,209張,測(cè)試圖片12630張。
訓(xùn)練集并不需要圖片預(yù)處理。
初始化參數(shù),將各層的權(quán)重通過(guò)正態(tài)分布的隨機(jī)初始化,均值為0,標(biāo)準(zhǔn)差為0.1,并設(shè)定隨機(jī)梯度下降學(xué)習(xí)率為0.0009,循環(huán)次數(shù)為25。
訓(xùn)練組為每次隨機(jī)選取的128個(gè)樣本。
訓(xùn)練樣本(x,y)分別為輸入和結(jié)果的比對(duì)標(biāo)準(zhǔn)。
將訓(xùn)練樣本輸入至上述構(gòu)建的基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度網(wǎng)絡(luò)模型,得到最終的43個(gè)分類(lèi)結(jié)果。
保存訓(xùn)練完成的模型。
步驟三:測(cè)試模型。
將測(cè)試集用于測(cè)試保存的模型,檢測(cè)模型的準(zhǔn)確率,并與個(gè)傳統(tǒng)模型比對(duì)。
模塊四:語(yǔ)音提醒模塊。
首先,連接圖像采集、圖片預(yù)處理、語(yǔ)音提醒模塊。其次,將得到的預(yù)處理后的圖像輸入訓(xùn)練好的模型,得出結(jié)果,并通過(guò)app軟件的語(yǔ)音提醒功能提醒司機(jī)。
最后,司機(jī)可以在歷史記錄中反饋結(jié)果,用于修改優(yōu)化模型。
以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。