本發(fā)明屬于模式識別和圖像處理技術領域,具體涉及一種基于多任務度量多核學習的室內rgb-d場景圖像識別方法。
背景技術:
場景識別是模式識別和圖像處理技術領域中最受關注的課題之一。傳統(tǒng)的場景識別通常利用彩色圖像來完成室外場景識別的任務。由于場景元素的復雜性,室內場景識別長久以來一直沒有得到重視。近年來,隨著微軟kinect攝像頭的出現(xiàn),場景的景深信息可以方便地獲取。這樣,攝像機在獲得普通彩色圖像(rgb圖像)的同時,還可以獲得標志景深信息的深度圖像(depth圖像),這為室內場景識別提供了可能。近年來,已經有學者利用這種新型的rgb-d圖像對室內場景識別進行了研究。dahualin,sanjafidler和raquelurtasun在文章“holisticsceneunderstandingfor3dobjectdetectionwithrgbdcameras.”(iccv,2013)中提出了一種利用圖像分割和幾何學知識提取rgb-d圖像中的三維目標,然后基于這些目標完成室內場景識別。shaohuawan,changbohu,j.k.aggarwal在文章“indoorscenerecognitionfromrgb-dimagesbylearningscenebases.”(icpr,2014)中通過利用場景中的目標和性質,對室內場景的屬性進行了定義,提出了一種基于場景元素的室內場景識別方法。
上述方法的不足之處是:都利用rgb-d圖像便于目標識別的特性,先將場景中的目標物體都識別出來,然后根據(jù)目標物體來分析這是哪一種室內場景。這種技術路線的最大缺點是:很多物體很可能出現(xiàn)在多種場景中。例如:這些方法中往往認為茶杯會出現(xiàn)在餐廳中,所以,當識別出某場景中含有茶杯這個物體,就認為該場景為餐廳。然而,在現(xiàn)實中,由于人們習慣的不同,茶杯可能出現(xiàn)在客廳,也有可能出現(xiàn)在臥室。而現(xiàn)有的技術路線這種根據(jù)物體定義場景的方法無法克服該缺點。而且現(xiàn)有技術路線也沒有直接利用彩色圖像(rgb圖像)和深度圖像(depth圖像)之間的聯(lián)系,從而導致圖像場景識別的準確率不高。
技術實現(xiàn)要素:
為了解決現(xiàn)有技術中存在的圖像場景識別準確率低的問題,本發(fā)明提供了一種基于多任務度量多核學習的室內rgb-d場景圖像識別方法。
實現(xiàn)本發(fā)明目的的技術思路是,將彩色圖像和深度圖像分別提取全局特征;利用多任務度量學習將兩種圖像類型的特征映射到同一個修正特征空間中;采用多核學習分類器將組合特征進行分類,完成室內場景識別。本發(fā)明要解決的技術問題通過以下技術方案實現(xiàn):
基于多任務度量多核學習的室內rgb-d場景圖像識別方法,該方法包括以下步驟:
步驟一,將室內rgb-d場景圖像訓練集中的每一幅rgb-d場景圖像的每一張彩色圖像和與彩色圖像對應的深度圖像通過卷積神經網(wǎng)絡分別提取彩色圖像特征和對應深度圖像特征;
所述彩色圖像特征和對應深度圖像特征均為全局特征;
步驟二,通過多任務度量學習方法構建映射函數(shù),得到特征映射矩陣,然后將所述彩色圖像特征和所述對應深度圖像特征同時通過所述特征映射矩陣映射到修正特征空間中,并得到修正彩色圖像特征和修正深度圖像特征;
步驟三,將所述修正彩色圖像特征和所述修正深度圖像特征一一對應,然后將所述修正彩色圖像特征和所述修正深度圖像特征的特征向量拼接為一個特征向量,形成修正rgb-d圖像特征;再通過多核學習方法,對修正rgb-d圖像特征進行學習,得到多核室內場景分類器模型;
步驟四,通過步驟一將待識別的室內rgb-d場景圖像提取待識別彩色圖像特征和待識別對應深度圖像特征,然后通過步驟二中的所述特征映射矩陣將待識別彩色圖像特征和待識別對應深度圖像特征映射到修正特征空間中并形成待識別修正彩色圖像特征和待識別修正深度圖像特征,并將待識別修正彩色圖像特征和待識別修正深度圖像特征一一對應并拼接成待識別修正rgb-d圖像特征,最后將待識別修正rgb-d圖像特征輸入到所述多核室內場景分類器模型中,得到分類結果,完成室內場景圖像的識別。
進一步的,所述步驟二的具體步驟為:
(1)通過多任務度量學習構建用于衡量兩個不同彩色圖像或兩個不同深度圖像的距離的度量函數(shù),距離度量函數(shù)為:
其中,xi表示一個彩色圖像樣本或深度圖像樣本,xs表示與xi不同的一個彩色圖像樣本或深度圖像樣本,dt表示兩個不同彩色圖像樣本之間的馬氏距離或兩個不同深度圖像樣本之間的馬氏距離;t表示完成同一室內場景識別的任務的數(shù)量,且t=2;m0表示公共度量矩陣,mt表示所述完成同一室內場景識別的任務私有的度量矩陣,m0+mt表示多任務度量學習中彩色圖像或深度圖像的度量矩陣,且m0+mt=lτl,l為所述特征映射矩陣;
其中,所述完成同一室內場景識別的任務包括使用彩色圖像特征完成室內場景識別的任務和使用對應深度圖像特征完成室內場景識別的任務;
t=1或2,當t=1時,m1表示使用彩色圖像特征完成室內場景識別的任務私有的度量矩陣,當t=2時,m2表示使用對應深度圖像特征完成室內場景識別的任務私有的度量矩陣;多任務度量學習中的彩色圖像的度量矩陣為m(1)=m0+m1,多任務度量學習中的深度圖像的度量矩陣為m(2)=m0+m2;
(2)構造優(yōu)化函數(shù)學習公共度量矩陣m0和私有的度量矩陣mt,優(yōu)化函數(shù)為:
且
ξi,j,k≥0
其中,xi表示一個彩色圖像樣本或深度圖像樣本,xj表示與xi屬于同一室內場景類別的另一個彩色圖像樣本或深度圖像樣本,xk表示與xi屬于不同室內場景類別的一個彩色圖像樣本或深度圖像樣本,i表示單位矩陣,γ0和γt表示優(yōu)化項的權重系數(shù),ξi,j,k表示松弛變量;
所述優(yōu)化函數(shù)為一個凸函數(shù),通過標準的次梯度下降法優(yōu)化所述優(yōu)化函數(shù)得到所述公共度量矩陣m0和所述完成同一室內場景識別的任務私有的度量矩陣mt;
(3)通過u=luori將所述彩色圖像特征和所述對應深度圖像特征同時通過所述特征映射矩陣映射到修正特征空間中,并得到修正彩色圖像特征和修正深度圖像特征;
其中,u表示修正彩色圖像特征或修正深度圖像特征,uori表示所述彩色圖像特征或所述對應深度圖像特征。
進一步的,所述步驟三的具體步驟為:
(1)將所述修正彩色圖像特征和所述修正深度圖像特征一一對應,然后將對應后的修正彩色圖像特征和修正深度圖像特征的特征向量直接拼接為一個特征向量,形成修正rgb-d圖像特征;
(2)將所述修正rgb-d圖像特征輸入核函數(shù),形成多核學習的最終核k:
其中,x和z表示任意兩個修正rgb-d圖像特征,e表示核函數(shù)的數(shù)目,kj表示第j個高斯基礎核,βj表示核之間的系數(shù);
(3)將最終核k輸入線性分類器進行學習,學習出多核室內場景分類器模型:
其中,n表示修正rgb-d圖像特征的數(shù)量,k表示最終核函數(shù),αi、b表示學習得到的系數(shù)
與現(xiàn)有技術相比,本發(fā)明的有益效果:
1、本發(fā)明直接針對室內rgb-d場景圖像本身進行識別,而不是先識別場景中的物體,再根據(jù)物體判斷場景,避免了(1)因物體存在的多樣性而造成的識別錯誤;(2)因物體識別錯誤而造成的場景判斷錯誤。
2、本發(fā)明利用多任務度量學習將彩色圖像和深度圖像同時映射到一個更有分辨力的修正特征空間中,多任務的設定保證了本發(fā)明可以同時利用彩色圖像的顏色信息和深度圖像的景深信息,克服了傳統(tǒng)方法中,不能很好的結合兩種信息的缺點。
3、本發(fā)明利用多核學習對映射后的特征進行分類,從而完成識別的任務。由于映射后的特征本質上是一個多模態(tài)的特征,它同時包含了彩色圖像的顏色信息和深度圖像的景深信息,傳統(tǒng)的方法只會把這個特征當做一個完整的樣本表示,而利用多核學習,可以對該特征使用不同的核函數(shù)進行決策,最后將不同的決策有效結合起來,充分利用兩種的模態(tài)的信息,而且,對不同的模態(tài)的特征使用不同的核函數(shù)也更適應這一類多模特征的表示方式,從而使得場景識別的識別率得到明顯提升。
附圖說明
圖1是本發(fā)明流程示意圖。
具體實施方式
下面結合具體實施例對本發(fā)明做進一步詳細的描述,但本發(fā)明的實施方式不限于此。
一、特征提取步驟
(1)將同一室內場景的彩色圖像和深度圖像作為一組圖像對,構成該場景的rgb-d圖像,將所有的室內rgb-d場景圖像構成圖像訓練集。
(2)根據(jù)卷積神經網(wǎng)絡alexnet模型,搭建七層深度神經網(wǎng)絡來分別提取每一張彩色圖像和每一張深度圖像的全局特征:
將彩色圖像或深度圖像作為神經網(wǎng)絡的輸入層;
定義第一、三、五層為卷積層,分別對上一層的輸出結果進行卷積運算;
定義第二、四、六層為子采樣層,分別對上一層的輸出結果進行子采樣運算;
定義第七層為全連接層,將第六層子采樣層的輸出作為輸入,構建一個全連接的單層神經網(wǎng)絡,該網(wǎng)絡輸出為4096維特征向量,該特征向量即作為圖像的全局特征。
二、映射函數(shù)構建步驟
(3)將所有的彩色圖像特征分為一組,所有的對應深度圖像特征分為一組。將使用這兩組特征完成室內場景識別作為兩個相關的任務。
(4)對上述兩個任務使用多任務度量學習獲得特征空間中彩色圖像或深度圖像的度量矩陣m=m0+mt,其中m0表示公共度量矩陣,mt表示完成同一室內場景識別的任務私有的度量矩陣。
(5)將特征空間中彩色圖像或深度圖像的度量矩陣m分解為m=lτl,l即為需要的特征映射矩陣,lt為l的轉置矩陣;將彩色圖像特征和對應深度圖像特征同時通過特征映射矩陣映射到修正特征空間中,并得到修正彩色圖像特征和修正深度圖像特征。
三、多核分類器學習步驟
(6)將步驟(5)中映射到修正特征空間中的修正彩色圖像特征和修正深度圖像特征一一對應,然后將每個室內場景的修正彩色圖像特征和修正深度圖像特征的兩種特征向量直接拼接為一個特征向量,作為該室內場景的修正rgb-d圖像特征;
(7)將所有室內場景的修正rgb-d圖像特征輸入核函數(shù),形成多核學習的最終核。核函數(shù)的定義為:
其中,x和z是任意兩個修正rgb-d圖像特征,e是核函數(shù)的數(shù)目,kj是第j個基礎核,在這里,我們的基礎核選用高斯核,βj指核之間的系數(shù);
(8)將步驟(7)形成的最終核輸入線性分類器進行學習,學習出多核室內場景分類器,表達式為:
其中,n表示修正rgb-d圖像特征的數(shù)量,k是最終核函數(shù),αi,b是學習到的系數(shù)。
四、場景圖像分類步驟
(9)利用步驟一中的方法提取待識別的室內rgb-d場景圖像的全局特征;
(10)利用步驟二中構建的特征映射矩陣將待識別的室內rgb-d場景圖像的全局特征映射到修正特征空間中;
(11)利用步驟三中學習到的多核分類器模型對待識別修正rgb-d圖像特征進行分類,完成室內場景圖像識別。
上述步驟的具體實施步驟如下:
一、特征提取部分
步驟1,rgb-d圖像訓練集構成:
在圖像集中,每一個室內場景應有一張彩色圖像(rgb圖像)和與之一一對應的一張深度圖像(depth圖像)。將同一室內場景的彩色圖像和深度圖像作為一組圖像對,構成該室內場景的rgb-d場景圖像,將所有的rgb-d場景圖像集合起來,構成訓練集。
步驟2,提取圖像全局特征:
根據(jù)卷積神經網(wǎng)絡alexnet模型,搭建七層深度神經網(wǎng)絡來分別提取每一張彩色圖像的彩色圖像特征和每一張深度圖像的對應深度圖像特征,彩色圖像特征和對應深度圖像特征均為全局特征:在該模型中,本實施例使用已經預訓練好的模型參數(shù):
(1)將彩色圖像或深度圖像作為神經網(wǎng)絡的輸入層;由于彩色圖像和深度圖像都是二維矩陣,因此輸入層實質為一個二維矩陣;
(2)定義第一、三、五層為卷積層,分別對上一層的輸出結果進行卷積運算;其卷積運算的計算公式為:
其中,
(3)定義第二、四、六層為子采樣層,分別對上一層的輸出結果進行子采樣運算;其卷積運算的計算公式為:
其中,
(4)定義第七層為全連接層,將第六層子采樣層的輸出作為輸入,構建一個全連接的單層神經網(wǎng)絡,該網(wǎng)絡輸出為4096維特征向量,該特征向量即作為圖像的全局特征。
二、映射函數(shù)構建
步驟3,在得到所有圖像的全局特征之后,將所有的彩色圖像特征分為一組,所有的對應深度圖像特征分為一組。將使用彩色圖像特征完成室內場景識別定義為一個任務,而將使用對應深度圖像特征完成室內場景識別定義為另外一個任務,而這兩個任務是使用同一個室內場景的不同類型圖像特征完成識別,所以,這兩個任務是有關聯(lián)的,因此,可以使用多任務學習的策略對這兩個任務同時學習。
步驟4,使用多任務度量學習獲得特征空間中度量矩陣,同時將彩色圖像特征和對應深度圖像特征映射到修正特征空間中。
(1)構造一個新的度量函數(shù)來衡量兩個不同彩色圖像或兩個不同深度圖像之間的距離,其距離度量函數(shù)為:
其中,xi表示一個彩色圖像樣本或深度圖像樣本,xs表示與xi不同的一個彩色圖像樣本或深度圖像樣本,dt表示兩個不同彩色圖像樣本之間的馬氏距離或兩個不同深度圖像樣本之間的馬氏距離,即構造的度量函數(shù),構造該距離度量函數(shù)的目的是使得在該度量下,同一個室內場景中的圖像距離最小。t表示完成同一室內場景識別的任務的數(shù)量,本實施例中有彩色圖像和深度圖像兩種圖像,完成同一室內場景識別的任務包括使用彩色圖像特征完成室內場景識別的任務和使用對應深度圖像特征完成室內場景識別的任務,所以t=2。m0表示公共度量矩陣,mt表示完成同一室內場景識別的任務私有的度量矩陣,m0+mt表示多任務度量學習中的彩色圖像或深度圖像的度量矩陣,即需要學習的矩陣。
(2)構造優(yōu)化函數(shù)學習度量矩陣。為了對線性變化矩陣m0和mt進行求解,構造一個優(yōu)化函數(shù)使得同一個室內場景中的圖像距離最小,優(yōu)化函數(shù)為:
且
ξi,j,k≥0
其中,xi表示一個彩色圖像樣本或深度圖像樣本,xk表示與xi屬于不同室內場景類別的一個彩色圖像樣本或深度圖像樣本,xj表示與xi屬于同一室內場景類別的另一個彩色圖像樣本或深度圖像樣本,i表示單位矩陣,γ0和γt表示優(yōu)化項的權重系數(shù),ξi,j,k表示松弛變量;t表示完成同一室內場景識別的任務的數(shù)量,本實施例中有彩色圖像和深度圖像兩種圖像,完成同一室內場景識別的任務包括使用彩色圖像特征完成室內場景識別的任務和使用對應深度圖像特征完成室內場景識別的任務,所以t=2。該優(yōu)化函數(shù)是一個凸函數(shù),利用標準的次梯度下降法優(yōu)化即可得到m0和mt。f表示斐波那契范數(shù)。
(3)上一步優(yōu)化得到公共度量矩陣m0;完成同一室內場景識別的任務私有的度量矩陣mt,其中當t=1時,m1表示使用彩色圖像特征完成室內場景識別的任務私有的度量矩陣,當t=2時,m2表示使用對應深度圖像特征完成室內場景識別的任務私有的度量矩陣。將m0與mt相加,得到多任務度量學習中的彩色圖像或深度圖像的度量矩陣m,m為線性變換矩陣,其中多任務度量學習中的彩色圖像的度量矩陣為m(1)=m0+m1,多任務度量學習中的深度圖像的度量矩陣為m(2)=m0+m2。
步驟5,將特征空間中度量矩陣m分解為m=lτl,l即為需要的特征映射矩陣,lt為l的轉置矩陣。其中,通過
三、多核室內場景分類器學習
步驟6,將步驟5中映射到修正特征空間中的修正彩色圖像特征和修正深度圖像特征一一對應,然后將每個室內場景的修正彩色圖像特征和修正深度圖像特征的兩種特征向量直接拼接為一個特征向量,作為該室內場景的修正rgb-d圖像特征,修正rgb-d圖像特征的維數(shù)是修正彩色圖像特征和修正深度圖像特征的兩倍。
步驟7,構建一個核函數(shù),將所有室內場景的修正rgb-d圖像特征輸入核函數(shù),形成多核學習的最終核。核函數(shù)的定義為:
其中,x和z是任意兩個修正rgb-d圖像特征,e是核函數(shù)的數(shù)目,kj是第j個基礎核,在這里,我們的基礎核選用高斯核,βj指核之間的系數(shù);
步驟8,將步驟7形成的最終核輸入線性分類器進行學習,學習出多核室內場景分類器。多核室內場景分類器模型表達式為:
其中,n表示修正rgb-d圖像特征的數(shù)量,k是最終核函數(shù),αi,b是學習到的系數(shù)。
四、場景圖像分類
步驟9,利用第一步中的方法提取待識別的室內rgb-d場景圖像的待識別彩色圖像特征和待識別對應深度圖像特征;
步驟10,利用第二步中構建的特征映射矩陣將待識別彩色圖像特征和待識別對應深度圖像特征映射到修正特征空間中,并形成修正特征空間中的待識別修正rgb-d圖像特征;
步驟11,利用第三步學習到的多核室內場景分類器對修正空間中的待識別修正rgb-d圖像特征進行分類,完成室內場景圖像識別。
本發(fā)明的效果可以通過以下仿真實驗做進一步的說明:
1.仿真條件
本發(fā)明是在中央處理器為intel(r)i52.80ghz、內存32g、windows7操作系統(tǒng)上,運用matlab軟件進行的仿真。
2.仿真內容
仿真1,本發(fā)明在nyudv2(nyudepthdatasetv2,紐約大學深度圖
像數(shù)據(jù)庫第二版)圖像集上進行室內場景識別仿真實驗。實驗結果如表1:
表1.nyudv2圖像集上不同方法下室內場景識別的準確率
由表1可見,該數(shù)據(jù)庫一共有十一種室內場景,在nyudv2圖像集上進行室內場景識別實驗,本發(fā)明的平均準確率是十種方法中最高的。
仿真2,本發(fā)明在b3do(berkeley3-dobjectdataset,伯克利3d目標數(shù)據(jù)庫)圖像集上進行室內場景識別仿真實驗。實驗結果如表2:
表2.b3do圖像集上不同方法下室內場景識別的準確率
由表2可見,該數(shù)據(jù)庫一共有六種室內場景,在b3do圖像集上進行室內場景識別實驗,本發(fā)明的平均準確率是十種方法中最高的。
綜上所述,這是因為本發(fā)明有效地將彩色圖像和深度圖像同時映射到一個更有分辨力的修正空間中,克服了傳統(tǒng)方法中,不能很好的結合兩種模態(tài)信息的缺點;而且利用多核分類器,將不同的決策有效結合起來,更加充分地利用了兩種模態(tài)的信息。由此獲得高于其他九種方法的準確率,進一步驗證了本發(fā)明的先進性。
以上內容是結合具體的優(yōu)選實施方式對本發(fā)明所作的進一步詳細說明,不能認定本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明所屬技術領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干簡單推演或替換,都應當視為屬于本發(fā)明的保護范圍。