一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法
【專利摘要】一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法,屬于高光譜遙感圖像處理方法。本發(fā)明針對源高光譜數(shù)據(jù)和目標(biāo)高光譜數(shù)據(jù)來自不同分布時,很多先進的基于機器學(xué)習(xí)的高光譜數(shù)據(jù)分類算法的分類性能變差。首先,根據(jù)一種能自動獲得包含判別信息的成對約束樣本,提出成對約束判別分析;然后,設(shè)計一種非負稀疏散度準(zhǔn)則來構(gòu)建不同分布的源領(lǐng)域和目標(biāo)領(lǐng)域高光譜數(shù)據(jù)之間的橋梁;最后,結(jié)合這兩部分,實現(xiàn)源高光譜數(shù)據(jù)到目標(biāo)高光譜數(shù)據(jù)的知識遷移。優(yōu)點:解決不同時間、不同地域或不同傳感器獲得高光譜數(shù)據(jù)間的知識遷移;能夠有效地利用源領(lǐng)域高光譜數(shù)據(jù)的信息去分析目標(biāo)領(lǐng)域高光譜數(shù)據(jù)并獲得較高的整體分類精度和Kappa系數(shù)。
【專利說明】一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種高光譜遙感圖像處理方法,具體涉及一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法。
【背景技術(shù)】
[0002]隨著高光譜傳感器的發(fā)展,能夠獲得大量密集且連續(xù)的光譜波段并廣泛應(yīng)用于觀察地球表面。高光譜數(shù)據(jù)分類過程的復(fù)雜性通常取決于所獲得數(shù)據(jù)的波段數(shù),而密集連續(xù)的光譜波段間的高相關(guān)性,同時會使波段冗余度提高及產(chǎn)生Hughes現(xiàn)象。因此,為了保留盡可能多的有用信息同時減少高光譜數(shù)據(jù)分類的復(fù)雜性,有必要將高維數(shù)據(jù)轉(zhuǎn)化到低維子空間,從而使高光譜數(shù)據(jù)更高效的分類。
[0003]隨著衛(wèi)星遙感技術(shù)的發(fā)展,未來高光譜數(shù)據(jù)處理面臨的一個主要挑戰(zhàn)是那些未知的但相關(guān)的新數(shù)據(jù)集。例如,相同星載傳感器定期對同一地區(qū)不同時間或不同地區(qū)相似地物收集數(shù)據(jù)集,不同星載傳感器對不同地區(qū)相似地物收集數(shù)據(jù)集,從而使多時相分析,多角度研究,多模態(tài)變化檢測成為可能。AVIRIS、Hyperion或QuickBird等衛(wèi)星幾乎每天都能獲取新的高光譜數(shù)據(jù),如果對這些新的高光譜數(shù)據(jù)進行監(jiān)督分類,就需要對每類高光譜數(shù)據(jù)收集足夠數(shù)量的標(biāo)記訓(xùn)練樣本,這不僅費時耗力,且成本很高,是不現(xiàn)實的。因此,研究者必須經(jīng)常依靠單次采集的數(shù)據(jù)來處理一系列數(shù)據(jù)。然而,由于多種原因,如不同時間的大氣條件、不同的采集系統(tǒng)狀態(tài)、不同層次的土壤水分、不同的反射率和照明條件等,可能導(dǎo)致新數(shù)據(jù)的概率分布發(fā)生變化。在這些情況下,直接利用舊數(shù)據(jù)來處理新數(shù)據(jù)的分類或回歸,可能會導(dǎo)致災(zāi)難性的結(jié)果。因此,找到一個有效的概率分布匹配策略,成為新一代高光譜數(shù)據(jù)處理的一項緊迫而復(fù)雜的任務(wù)。
[0004]近幾年,很多機器學(xué)習(xí)算法已經(jīng)成功地應(yīng)用到高光譜數(shù)據(jù)處理中。在機器學(xué)習(xí)中,上面的問題可以通過領(lǐng)域自適應(yīng)或遷移學(xué)習(xí)來解決。遷移學(xué)習(xí)的目的是解決當(dāng)來自一個或多個源領(lǐng)域的訓(xùn)練樣本和來自目標(biāo)領(lǐng)域的測試樣本屬于不同分布或是不同特征空間表示時的問題。遷移學(xué)習(xí)的關(guān)鍵思想是:雖然源和目標(biāo)領(lǐng)域之間的分布不同,但是仍然存在一些共同的跨領(lǐng)域知識結(jié)構(gòu),可以利用這些結(jié)構(gòu)來作為知識遷移的橋梁。遷移學(xué)習(xí)大體可以分為下面四種:基于實例的遷移學(xué)習(xí)、基于參數(shù)的遷移學(xué)習(xí)、基于關(guān)聯(lián)規(guī)則的遷移學(xué)習(xí)和基于特征的遷移學(xué)習(xí)。
[0005]基于特征的遷移學(xué)習(xí)(也稱為特征遷移學(xué)習(xí))的直觀想法是為目標(biāo)領(lǐng)域?qū)W習(xí)一個“好”的特征表示。源領(lǐng)域的知識通過特征表示遷移到目標(biāo)領(lǐng)域,在該特征表示下,目標(biāo)領(lǐng)域的學(xué)習(xí)性能能得到明顯的提升?;谔卣鞯倪w移學(xué)習(xí)可以解決維數(shù)災(zāi)問題和不同分布問題,因此可以考慮利用其來解決高光譜數(shù)據(jù)的降維問題。流形學(xué)習(xí)在研究數(shù)據(jù)的內(nèi)在結(jié)構(gòu)中有很多重要的發(fā)現(xiàn),常被用來研究高維數(shù)據(jù)的低維特征表示,其優(yōu)點在于能夠在低維空間中準(zhǔn)確反映出數(shù)據(jù)的高維結(jié)構(gòu)。Pan等提出最大平均差異嵌入(maximum meandiscrepancy embedding, MMDE)算法,通過學(xué)習(xí)一個低維子空間來降低不同領(lǐng)域直推遷移學(xué)習(xí)間的分布差異。經(jīng)過這種處理后的數(shù)據(jù)可以直接利用傳統(tǒng)分類器對數(shù)據(jù)進行訓(xùn)練和泛化。由于MMDE的計算開銷較大,Pan等在此基礎(chǔ)上,提出了一個有效的快速特征提取算法:遷移成分分析(transfer component analysis, TCA)。Wang等結(jié)合線性判別分析和聚類劃分的思想,提出了遷移判別分析TDA (transferred discriminate analysis,TDA)。TDA首先使用聚類方法產(chǎn)生無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽,然后利用判別保持的降維方法對源領(lǐng)域目標(biāo)數(shù)據(jù)和帶標(biāo)簽的數(shù)據(jù)進行降維,對這兩個步驟迭代進行直到結(jié)果標(biāo)簽不再變化。利用上述特征遷移學(xué)習(xí)算法得到的特征投影矩陣均沒有考慮到稀疏約束,當(dāng)利用有限的訓(xùn)練樣本處理大量測試樣本集時,易于出現(xiàn)過擬合現(xiàn)象。為此,引入稀疏約束,Yang等提出遷移稀疏子空間學(xué)習(xí)-最大平均差異(transfer sparse subspace learning -maximummean discrepancy, TSSL-MMD)和遷移稀疏子空間學(xué)習(xí)-布雷格曼散度(transfer sparsesubspace learning-bregman divergence, TSSL-BD), Zhang 等提出稀疏遷移流形嵌入(sparse transfer manifold embedding, STME)。TSSL-MMD 需要求取源領(lǐng)域和目標(biāo)領(lǐng)域樣本的核矩陣,當(dāng)將其用于處理像高光譜數(shù)據(jù)這類樣本量非常大的數(shù)據(jù)時,TSSL-MMD的計算開銷較大;另外,依據(jù)MMD準(zhǔn)則得到的核矩陣不具有判別信息,從而會導(dǎo)致遷移效率降低。STME中判別流形嵌入部分將背景樣本和目標(biāo)樣本全部考慮進去了,從而無法避免冗余的、含噪聲的這些影響算法效率的樣本。
【發(fā)明內(nèi)容】
[0006]發(fā)明目的:針對上述現(xiàn)有技術(shù),提出一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法,解決不同時間、不同地域或不同傳感器獲得高光譜數(shù)據(jù)間的知識遷移,實現(xiàn)在沒有人工干預(yù)下自動獲得成對約束樣本,并避免冗余的、含噪聲的樣本選入;同時,避免數(shù)據(jù)降維出現(xiàn)過擬合現(xiàn)象,使得高光譜數(shù)據(jù)處理具有自然的判別能力,減少了專家標(biāo)記工作。
[0007]技術(shù)方案:為解決上述技術(shù)問題,一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法,具體步驟如下:
[0008]步驟1,選擇需進行分析的源領(lǐng)域和目標(biāo)領(lǐng)域高光譜數(shù)據(jù),根據(jù)需求將這些高光譜數(shù)據(jù)分成源訓(xùn)練樣本,目標(biāo)訓(xùn)練樣本和目標(biāo)測試樣本;通過降維算法使所述高光譜數(shù)據(jù)從高維空間投影至一個低維子空間;
[0009]步驟2,通過成對約束將所述源訓(xùn)練樣本和目標(biāo)訓(xùn)練樣本劃分成正關(guān)聯(lián)約束樣本和負關(guān)聯(lián)約束樣本,利用所述正負關(guān)聯(lián)約束樣本和補丁校準(zhǔn)框架,進行成對約束判別分析;
[0010]步驟3,利用非負稀疏表示方法計算源領(lǐng)域內(nèi)、目標(biāo)領(lǐng)域內(nèi)和交叉域間的樣本非負稀疏表示,并通過非負稀疏散度準(zhǔn)則構(gòu)建不同分布的源領(lǐng)域和目標(biāo)領(lǐng)域高光譜數(shù)據(jù)之間的橋梁;
[0011]步驟4,結(jié)合所述成對約束判別分析和非負稀疏散度準(zhǔn)則,實現(xiàn)不同分布高光譜數(shù)據(jù)間的特征遷移學(xué)習(xí)。
[0012]作為本發(fā)明的優(yōu)選方案,所述步驟I中,輸入的高光譜數(shù)據(jù)共有3個部分:
[0013]I)源領(lǐng)域高光譜數(shù)據(jù)的源訓(xùn)練樣本
【權(quán)利要求】
1.一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法,其特征在于, 具體步驟如下: 步驟1,選擇需進行分析的源領(lǐng)域和目標(biāo)領(lǐng)域高光譜數(shù)據(jù),根據(jù)需求將這些高光譜數(shù)據(jù)分成源訓(xùn)練樣本,目標(biāo)訓(xùn)練樣本和目標(biāo)測試樣本;通過降維算法使所述高光譜數(shù)據(jù)從高維空間投影至一個低維子空間; 步驟2,通過成對約束將所述源訓(xùn)練樣本和目標(biāo)訓(xùn)練樣本劃分成正關(guān)聯(lián)約束樣本和負關(guān)聯(lián)約束樣本,利用所述正負關(guān)聯(lián)約束樣本和補丁校準(zhǔn)框架,進行成對約束判別分析; 步驟3,利用非負稀疏表示方法計算源領(lǐng)域內(nèi)、目標(biāo)領(lǐng)域內(nèi)和交叉域間的樣本非負稀疏表示,并通過非負稀疏散度準(zhǔn)則構(gòu)建不同分布的源領(lǐng)域和目標(biāo)領(lǐng)域高光譜數(shù)據(jù)之間的橋梁; 步驟4,結(jié)合所述成對約束判別分析和非負稀疏散度準(zhǔn)則,實現(xiàn)不同分布高光譜數(shù)據(jù)間的特征遷移學(xué)習(xí)。
2.根據(jù)權(quán)利要求1所述一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法,其特征在于:所述步驟I中,輸入的高光譜數(shù)據(jù)共有3個部分: 1)源領(lǐng)域高光譜數(shù)據(jù)的源訓(xùn)練樣本,
3.根據(jù)權(quán)利要求2所述的一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法,其特征在于:所述步驟2中,所述成對約束判別分析方法,其目標(biāo)函數(shù)定義為:
4.根據(jù)權(quán)利要求3所述一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法,其特征在于:所述步驟3中,所述非負稀疏散度準(zhǔn)則: 令Dist(Z〖,Z=)表示在低維子空間中源領(lǐng)域和目標(biāo)領(lǐng)域間不同分布的距離估計,通過最小化如下式的目標(biāo)函數(shù),實現(xiàn)估計不同分布樣本間的距離:
5.根據(jù)權(quán)利要求4所述一種基于成對約束判別分析-非負稀疏散度的高光譜數(shù)據(jù)降維方法,其特征在于:所述步驟4中特征遷移學(xué)習(xí)步驟如下: 為能從源領(lǐng)域到目標(biāo)領(lǐng)域遷移樣本的判別信息,將成對約束判別分析和非負稀疏分布散度準(zhǔn)則的潛在的特征空間結(jié)構(gòu),通過權(quán)衡參數(shù)β e [0,1]連接起來;同時增加正則約束WtW=I來避免廣義特征分解的秩虧現(xiàn)象,則有:
【文檔編號】G06K9/62GK103544507SQ201310482378
【公開日】2014年1月29日 申請日期:2013年10月15日 優(yōu)先權(quán)日:2013年10月15日
【發(fā)明者】王雪松, 高陽, 程玉虎 申請人:中國礦業(yè)大學(xué)