基于稀疏表示和空譜拉普拉斯圖的高光譜數(shù)據(jù)降維方法
【專利摘要】本發(fā)明公開了一種用于大規(guī)模高光譜數(shù)據(jù)的降維方法,主要用于解決傳統(tǒng)流行學(xué)習(xí)信息單一和該類方法難以處理較大規(guī)模數(shù)據(jù)的問題。其實現(xiàn)步驟為:1.從大規(guī)模的高光譜數(shù)據(jù)中選擇一定量的數(shù)據(jù)作為訓(xùn)練樣本;2.對訓(xùn)練樣本進(jìn)行空譜拉普拉斯圖的構(gòu)造;3.對拉普拉斯矩陣進(jìn)行特征分解得到訓(xùn)練樣本的低維表示;4.利用訓(xùn)練樣本及其低維表示構(gòu)造高維字典和低維字典;5.計算剩余高光譜數(shù)據(jù)在高維字典上的稀疏表示系數(shù);6.將該稀疏表示系數(shù)與低維字典進(jìn)行相乘,得到剩余數(shù)據(jù)的低維表示;7.整合訓(xùn)練樣本與剩余數(shù)據(jù)的低維表示得到完整的降維數(shù)據(jù)。本發(fā)明提升了流行降維的效果,可用于處理大規(guī)模的高光譜數(shù)據(jù)。
【專利說明】基于稀疏表示和空譜拉普拉斯圖的高光譜數(shù)據(jù)降維方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)處理【技術(shù)領(lǐng)域】,涉及高光譜數(shù)據(jù)的前期處理,主要目的是為了減 少高光譜數(shù)據(jù)的維數(shù),從而降低后期數(shù)據(jù)處理方法的計算復(fù)雜度,同時盡可能提升其性能。 該方法可以被應(yīng)用于大規(guī)模的高光譜數(shù)據(jù)聚類或分類中。
【背景技術(shù)】
[0002] 數(shù)據(jù)降維處理在數(shù)據(jù)處理中起著很大的作用,許多維數(shù)過高的數(shù)據(jù)在處理之前都 會進(jìn)行降維處理,一方面可以降低計算量,另一方面還可以從原有特征中挖取更有用的特 征,提升后期算法的處理效果。光譜數(shù)據(jù)隨著成像設(shè)備的光譜分辨率的不斷提高,數(shù)據(jù)的維 數(shù)也是越來越高,數(shù)據(jù)降維必不可少,同時,隨著設(shè)備的發(fā)展,空間分辨率也在不斷提高,數(shù) 據(jù)的規(guī)模也在不斷的增大,如何處理大規(guī)模的高光譜數(shù)據(jù)也成為非常關(guān)鍵的一個問題。
[0003] 現(xiàn)有的數(shù)據(jù)降維方法很多,常用的如:主成分分析PCA,線性判別分析LDA,局部保 持投影LPP,拉普拉斯嵌入。主成分分析及線性判別分析方法簡單實用,但是適合于線性數(shù) 據(jù),對于非線性的數(shù)據(jù)處理效果不是很好。以往研究表明,高光譜數(shù)據(jù)中存在著流形結(jié)構(gòu), 線性方法并不能完全高光譜的數(shù)據(jù)背景。流形學(xué)習(xí)針對于非線性數(shù)據(jù),利用圖嵌入的方法 捕捉數(shù)據(jù)的空間結(jié)構(gòu),將數(shù)據(jù)映射到具有同樣空間結(jié)構(gòu)的低維流行空間中,從而保持?jǐn)?shù)據(jù) 間的分布結(jié)構(gòu)。
[0004] 目前流形學(xué)習(xí)降維的方法有不少,如:
[0005] 2000年Tenenbaum與Silva在《Science》上提出了IS0MAP,這個方法是利用非線 性的局部變量信息學(xué)習(xí)數(shù)據(jù)集的全局集合結(jié)構(gòu),使用了測地距離來度量高維空間中的樣本 點距離,通過建立原數(shù)據(jù)的測地線距離與降維數(shù)據(jù)空間的空間距離的對等關(guān)系完成數(shù)據(jù)降 維。該方法保證流形上的空間結(jié)構(gòu)在低維流行空間中依然存在,但是當(dāng)選擇較大鄰域時會 出現(xiàn)短路現(xiàn)象。
[0006] 2000 年Roweis和Saul提出 了了局部線性嵌入法(LocallyLinear Embedding,LLE),該方法的主要思想是具有低維子流形結(jié)構(gòu)的數(shù)據(jù)集,原空間與低維空間 中的點的鄰域結(jié)構(gòu)關(guān)系式不變的。該方法很好的保留了鄰接點間的關(guān)系,使每個點的鄰接 權(quán)值保持不變,但對于等距流形,嵌入效果不是很好。
[0007] 2003年M.Belkin與P.Niyogi提出了拉普拉斯特征映射LE,該方法的出發(fā)點為: 高維空間中離得很近的點投影到低維空間中的像應(yīng)該也會離得很近。該方法處理分類問題 很好,但是權(quán)值計算所使用的heatkernel中的參數(shù)對嵌入結(jié)構(gòu)有很大影響。
[0008] 上述方法有兩個統(tǒng)一的缺陷:(1)這些方法中很重要的步驟就是圖的構(gòu)造,當(dāng)數(shù) 據(jù)規(guī)模非常大的時候,圖的存儲及后期的計算都是非常困難的,一般的流形學(xué)習(xí)方法無法 處理大規(guī)模數(shù)據(jù);(2)普通的流形學(xué)習(xí)方法,并沒有考慮到高光譜數(shù)據(jù)中所存在的空間結(jié) 構(gòu),只是單純的考慮其譜間的鄰域關(guān)系,導(dǎo)致對高光譜數(shù)據(jù)降維效果不理想。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的在于克服上述已有技術(shù)的缺點,提出了一種基于稀疏表示和空譜拉 普拉斯圖的高光譜數(shù)據(jù)降維方法,以提高高光譜數(shù)據(jù)降維的效果,便于將流行學(xué)習(xí)能推廣 到大規(guī)模的高光譜數(shù)據(jù)中。
[0010] 本發(fā)明的技術(shù)方案是:從大規(guī)模的高光譜數(shù)據(jù)中選擇一定量的數(shù)據(jù)作為訓(xùn)練樣 本,對所選訓(xùn)練樣本進(jìn)行空譜拉普拉斯圖的構(gòu)造,對拉普拉斯矩陣進(jìn)行特征分解得到訓(xùn)練 樣本的低維表示;利用高維訓(xùn)練樣本及其低維表示構(gòu)造高維字典和低維字典,將剩余的高 光譜數(shù)據(jù)在高維字典上進(jìn)行稀疏表示,得到對應(yīng)的稀疏表示系數(shù);將該稀疏表示系數(shù)與低 維字典進(jìn)行相乘,得到剩余高光譜數(shù)據(jù)的低維表示,整合訓(xùn)練樣本與剩余高光譜數(shù)據(jù)的低 維表示得到整體數(shù)據(jù)的低維表示。其具體步驟包括如下:
[0011] (1)從一幅高光譜圖像數(shù)據(jù)I中選擇n個數(shù)據(jù)點作為高維的訓(xùn)練樣本,高光譜數(shù)據(jù) 維數(shù)為P,n的數(shù)值由高光譜圖像數(shù)據(jù)的規(guī)模確定,取整體數(shù)目的10%以上;
[0012](2)對所選高維訓(xùn)練樣本進(jìn)行空譜拉普拉斯圖G的構(gòu)造:
[0013] (2a)構(gòu)造譜間圖Gl:
[0014] 使用譜信息散度SID作為訓(xùn)練樣本點間的距離度量,計算第i個訓(xùn)練樣本與其它 訓(xùn)練樣本間的距離,i= 1,…,n,并對這些距離值進(jìn)行由小到大排序,選擇距離最小的N個 樣本作為第i個訓(xùn)練樣本點的N近鄰,N= 6;
[0015] 根據(jù)第i個訓(xùn)練樣本點的N近鄰確定第i個訓(xùn)練樣本點與其它訓(xùn)練樣本點的連接 關(guān)系:若第j個訓(xùn)練樣本點在第i個訓(xùn)練樣;N 中,則將第j個訓(xùn)練樣本點與第 i個訓(xùn)練樣本點連接,并計算該連接邊的權(quán){I
【權(quán)利要求】
1. 一種基于稀疏表示和空譜拉普拉斯圖的高光譜數(shù)據(jù)降維方法,包括以下步驟: (1) 從一幅高光譜圖像數(shù)據(jù)I中選擇η個數(shù)據(jù)點作為高維的訓(xùn)練樣本,高光譜數(shù)據(jù)維數(shù) 為Ρ,η的數(shù)值由高光譜圖像數(shù)據(jù)的規(guī)模確定,取整體數(shù)目的10%以上; (2) 對所選高維訓(xùn)練樣本進(jìn)行空譜拉普拉斯圖G的構(gòu)造: (2a)構(gòu)造譜間圖Gl: 使用譜信息散度SID作為訓(xùn)練樣本點間的距離度量,計算第i個訓(xùn)練樣本與其它訓(xùn)練 樣本間的距離,i= 1,…,n,并對這些距離值進(jìn)行由小到大排序,選擇距離最小的N個樣本 作為第i個訓(xùn)練樣本點的N近鄰,N= 6 ; 根據(jù)第i個訓(xùn)練樣本點的N近鄰確定第i個訓(xùn)練樣本點與其它訓(xùn)練樣本點的連接關(guān) 系:若第j個訓(xùn)練樣本點在第i個訓(xùn)練樣本點的N近鄰中,則將第j個訓(xùn)練樣本點與第i個 訓(xùn)練樣本點連接,并計算該連接邊的權(quán)值g= 反之,第j個訓(xùn)練樣本點與第i個訓(xùn) 練樣本點不連接,fu= 0,其中X,y分別為第i個訓(xùn)練樣本點與第j個訓(xùn)練樣本點所對 應(yīng)的光譜向量,參數(shù)t根據(jù)實際數(shù)據(jù)調(diào)試確定; (2b)構(gòu)造空間圖G2 : 比較第i個訓(xùn)練樣本點與其它訓(xùn)練樣本點的二維坐標(biāo),i= 1,…,n,確定其它訓(xùn)練樣本 點是否在第i個訓(xùn)練樣本點的K鄰域中,若第j個訓(xùn)練樣本點在第i個訓(xùn)練樣本點的K鄰 域內(nèi),將第i個訓(xùn)練樣本點與第j個訓(xùn)練樣本點進(jìn)行連接,反之第i個訓(xùn)練樣本點與第j個 訓(xùn)練樣本點不連接,鄰域參數(shù)K= 11,該參數(shù)表示以第i個訓(xùn)練樣本點為中心的11*11的鄰 域區(qū)域; 確定連接邊的權(quán)值:將11*11的鄰域劃分為內(nèi)鄰域和外鄰域,內(nèi)鄰域為以第i個訓(xùn)練樣 本點為中心的5*5的區(qū)域,外鄰域為除去內(nèi)鄰域的剩余鄰域區(qū)域;如果第j個訓(xùn)練樣本點在 第i個訓(xùn)練樣本點的內(nèi)鄰域中,則連接邊的權(quán)值為W"u = 1,如果第j個訓(xùn)練樣本點在第 i個訓(xùn)練樣本點的外鄰域中,則連接邊的權(quán)值W"u = 0. 8 ;若第i個訓(xùn)練樣本點與第j個 訓(xùn)練樣本點間不存在連接,則W"u= 0 ; (2c)將譜間圖Gl和空間圖G2進(jìn)行合并操作,保留這兩個圖中的所有連接邊,得到空譜 拉普拉斯圖G,得到空譜拉普拉斯圖G的權(quán)值矩陣為W,W=W' +W",計算拉普拉斯矩陣L,L =D-W,其中D為由W的行或列求和得到的向量作為對角線元素的對角矩陣; (3) 對拉普拉斯矩陣L和對角矩陣D進(jìn)行廣義特征值分解,取最小r個特征值對應(yīng)的特 征向量作為訓(xùn)練樣本所對應(yīng)的低維表示TR; (4) 構(gòu)造高維空間與低維空間的對偶字典:將η個p維的訓(xùn)練樣本作為高維字典HD,將 η個訓(xùn)練樣本對應(yīng)的r維表示TR作為低維字典LD,這兩個字典的原子間存在一一對應(yīng)的關(guān) 系; (5) 對剩余高光譜數(shù)據(jù)進(jìn)行稀疏表示求解,得到剩余高光譜數(shù)據(jù)在高維字典HD上的稀 疏表示系數(shù):θ= [Θ" · ··,Θs,· ··,ΘJ; (6) 將剩余高光譜數(shù)據(jù)的稀疏表示系數(shù)〇與低維字典LD相乘,得到剩余高光譜數(shù)據(jù)的 r維表示RR=LD*Θ; (7) 結(jié)合訓(xùn)練樣本的r維表示TR,得到整個高光譜數(shù)據(jù)的r維表示IR=[TR;RR]。
2. 根據(jù)權(quán)利要求書1所述的基于稀疏表示和空譜拉普拉斯圖的高光譜數(shù)據(jù)降維方法, 其中步驟(3)所述的對拉普拉斯矩陣L和對角矩陣D進(jìn)行廣義特征值分解,按如下步驟進(jìn) 行: (3. 1)將廣義特征值問題轉(zhuǎn)化為一般特征值問題,1Lu=λu,其中IT1為對角矩陣D的逆矩陣,λ為特征值,u為特征值λ對應(yīng)的特征向量; (3. 2)對D4L進(jìn)行一般特征值分解得到η個特征值λi,λ2,...,λη,η為方陣D4L的 行數(shù),這η個特征值按照從小到大的順序排列,S卩:A1 <λ2,...,<λη,以及對應(yīng)的特征 向量UpU2,...,un,取最小的r個特征向量值對應(yīng)的特征向...,ur作為訓(xùn)練樣本的 r維表示TR,r表示降維后的數(shù)據(jù)維數(shù),該參數(shù)可以根據(jù)實驗數(shù)據(jù)設(shè)置。
3.根據(jù)權(quán)利要求書1所述的基于稀疏表示和空譜拉普拉斯圖的高光譜數(shù)據(jù)降維方法, 其中步驟(5)所述的對剩余高光譜數(shù)據(jù)進(jìn)行稀疏表示求解,是對每個數(shù)據(jù)點分別進(jìn)行求 解: (5. 1)設(shè)剩余高光譜數(shù)據(jù)在高維字典HD上的稀疏表示系數(shù)為:Θ=[Θ. ..,Θs,. ..,Θm],Θs為第s個數(shù)據(jù)點的稀疏表示系數(shù),s= 1,. . .,m,m為剩余高光 譜數(shù)據(jù)的個數(shù); (5.2)最小化下式中的目標(biāo)函數(shù),得到對應(yīng)的解向量Θ,使稀疏表示系數(shù)03等于該解 向量Θ:
其中,Xs為第S個數(shù)據(jù)點對應(yīng)的光譜向量,11*112為向量的2范數(shù),11*111S向量的1 范數(shù),β為調(diào)節(jié)參數(shù)。
【文檔編號】G06K9/62GK104318243SQ201410542949
【公開日】2015年1月28日 申請日期:2014年10月14日 優(yōu)先權(quán)日:2014年10月14日
【發(fā)明者】焦李成, 陳璞花, 楊淑媛, 侯彪, 王爽, 馬文萍, 馬晶晶, 劉紅英 申請人:西安電子科技大學(xué)