本發(fā)明涉及一種基于改進拉普拉斯映射的藍莓糖度高光譜反演方法,屬于藍莓高光譜采集與分析。
背景技術(shù):
1、藍莓作為一種營養(yǎng)價值極高的水果,深受人們喜愛。糖度作為評價藍莓品質(zhì)的標準之一,不同糖度在市場上的需求也不同。而通過測定藍莓糖度,農(nóng)業(yè)生產(chǎn)者可以此來確定最佳采摘時間,保證藍莓的口感和品質(zhì),最大程度滿足市場需求。因此快速、準確地預(yù)測藍莓中糖度的含量對推動農(nóng)業(yè)生產(chǎn)發(fā)展具有重要意義。在傳統(tǒng)方法中,確定藍莓的糖度含量涉及到在現(xiàn)場采集藍莓以及大量化學(xué)實驗分析,這一過程不僅費時費力,還會對藍莓造成不可恢復(fù)的破壞性損傷。近幾年來隨著光譜技術(shù)在無損檢測方向的推廣,給農(nóng)業(yè)帶來了極大的便利和進步,在不破壞水果外觀和內(nèi)部結(jié)構(gòu)的前提下提高了檢測效率和準確性,同時減少了檢測所需的各種成本。目前,高光譜技術(shù)已被廣泛應(yīng)用于藍莓及其他果蔬品質(zhì)的快速無損檢測研究中,為果蔬的品質(zhì)評估和成分分析提供了強大的分析手段。
2、在現(xiàn)有利用高光譜遙感技術(shù)預(yù)測藍莓糖度的研究中,雖然光譜處理方法及建模方法較多,但都比較傳統(tǒng)且總體泛化性較差。特別是在面對在復(fù)雜場景中采集的不同品種、不同成熟度的藍莓高光譜數(shù)據(jù)時,傳統(tǒng)預(yù)處理方式如sg平滑、標準正態(tài)變量變換(snv)、一階導(dǎo)數(shù)等不足以應(yīng)對復(fù)雜光譜數(shù)據(jù),而分數(shù)階導(dǎo)數(shù)(fod)不僅能消除基線漂移,抑制噪聲,同時還能放大隱藏在海量光譜信號中的細微信息,更加適應(yīng)復(fù)雜場景中的非線性光譜變化,從而多尺度捕捉光譜中的全局和局部信息。在對高光譜數(shù)據(jù)進行預(yù)處理后,同樣的,傳統(tǒng)特征選擇算法想要精確且快速地提取關(guān)鍵信息的能力仍然有限,如競爭性自適應(yīng)重加權(quán)算法(cars)易產(chǎn)生冗余波段,需多次使用;迭代保留信息變量算法(iriv)計算時間過長,影響建模效率等。而拉普拉斯映射(le)可通過構(gòu)建拉普拉斯矩陣分析波段間的局部相似性,自適應(yīng)分配波段權(quán)重,快速提取特征波長,算法的整體泛化能力更強。但經(jīng)過fod處理后的藍莓光譜因微弱特征被放大,會出現(xiàn)光譜曲線分布不均、長尾和多峰的非線性表現(xiàn)趨勢,此時le就無法更好地捕捉數(shù)據(jù)之間的復(fù)雜關(guān)系,陷入局部最優(yōu)而忽視全局信息的風險也大大增加,最終影響模型的整體性能。
3、故本發(fā)明針對上述問題提出一種基于改進拉普拉斯映射的藍莓糖度高光譜反演方法。在現(xiàn)有研究不足的基礎(chǔ)上,提出使用多元散射校正(msc)與分數(shù)階導(dǎo)數(shù)(fod)組合預(yù)處理數(shù)據(jù),利用改進的拉普拉斯映射算法(ile)在更好適應(yīng)fod的同時提取藍莓高光譜的特征波段,最后利用cnn網(wǎng)絡(luò)構(gòu)建在復(fù)雜場景下,針對不同品種和成熟度藍莓的輕量級糖度預(yù)測模型并驗證其適用性,為進一步研究藍莓糖度高光譜反演等相關(guān)研究提供參考。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足,提供一種基于改進拉普拉斯映射的藍莓糖度高光譜反演方法,該方法針對復(fù)雜場景下的藍莓預(yù)測精度更高,預(yù)測速度更快,且成本較低,具有很好的現(xiàn)實應(yīng)用價值和發(fā)展?jié)摿Α?/p>
2、為實現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實現(xiàn):
3、一種基于改進拉普拉斯映射的藍莓糖度高光譜反演方法,首先采集復(fù)雜場景下不同品種、不同成熟度的藍莓樣本,測定藍莓樣本的高光譜數(shù)據(jù)和對應(yīng)藍莓的糖度含量,之后選擇合適的統(tǒng)計算法將藍莓樣本數(shù)據(jù)按一定比例劃分為訓(xùn)練集和測試集,使用msc+fod組合進行數(shù)據(jù)預(yù)處理,再利用本發(fā)明提出的ile從預(yù)處理后的光譜數(shù)據(jù)中提取特征波段,使用cnn建立藍莓糖度預(yù)測模型并使用訓(xùn)練集對該模型進行訓(xùn)練,最后使用測試集結(jié)合回歸指標r2,rmse和rpd對模型進行綜合評價。
4、具體包括以下步驟:
5、step1:采集復(fù)雜場景下不同品種、不同成熟度的藍莓樣本,測定藍莓樣本的高光譜數(shù)據(jù)以及糖度含量;
6、step2:利用統(tǒng)計算法對藍莓樣本的高光譜數(shù)據(jù)和糖度含量進行劃分,將藍莓樣本按比例劃分為訓(xùn)練集和測試集兩個部分;
7、step3:對劃分好的藍莓樣本數(shù)據(jù)進行預(yù)處理,所述預(yù)處理使用msc+fod組合分別對訓(xùn)練集和測試集的藍莓高光譜數(shù)據(jù)進行光譜預(yù)處理,以消除噪聲并突出光譜特征;
8、step4:采用改進后的拉普拉斯映射算法ile在經(jīng)過msc+fod組合預(yù)處理后的藍莓樣本數(shù)據(jù)中提取特征波段;
9、step5:使用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)cnn構(gòu)建復(fù)雜場景下的藍莓糖度預(yù)測模型,使用經(jīng)過預(yù)處理和特征提取后的訓(xùn)練集訓(xùn)練模型,再利用測試集對訓(xùn)練好的藍莓糖度預(yù)測模型計算回歸指標r2,rmse和rpd,對預(yù)測模型進行驗證。
10、所述step3具體為:
11、step?3.1:首先采用多元散射校正msc方法對藍莓數(shù)據(jù)進行初步預(yù)處理,對每個樣本光譜與所有樣本光譜的平均值進行線性擬合,消除由于外界因素引起的散射效應(yīng),增強光譜與糖度含量之間的相關(guān)性;
12、step?3.2:因復(fù)雜場景下采集的藍莓高光譜數(shù)據(jù)較為復(fù)雜,引入分數(shù)階導(dǎo)數(shù)fod對經(jīng)過msc處理的藍莓數(shù)據(jù)再次進行處理,將測得的藍莓糖度含量數(shù)據(jù)(m×1)與高光譜數(shù)據(jù)(m×n)分別作為輸入數(shù)據(jù),根據(jù)預(yù)設(shè)分數(shù)階間隔,在0?~?2階內(nèi)依次計算每個藍莓光譜曲線各個波段的分數(shù)階導(dǎo)數(shù),得到處理后的光譜曲線,其中fod定義為grunwald-letnikov函數(shù),其公式如下:
13、
14、其中,f(x)是光譜信號,表示在波長x處的反射率;d表示對反射率f(x)求次導(dǎo)數(shù);為階數(shù);h為導(dǎo)數(shù)步長;b和a分別為導(dǎo)數(shù)的上限和下限,其值隨波段數(shù)的增加動態(tài)增加;是gamma函數(shù),用于推廣階乘到非整數(shù)階,表示階的gamma函數(shù)值,表示?階的gamma函數(shù)值,用于縮放和歸一化權(quán)重;m是一個非負整數(shù),表示當前波長x與歷史數(shù)據(jù)點x???mh?之間的步數(shù);表示x附近的一系列歷史數(shù)據(jù)點,是函數(shù)在歷史數(shù)據(jù)點x???mh?處的光譜反射率;
15、step?3.3:通過計算得到x點處的分數(shù)階導(dǎo)數(shù),捕捉光譜信號的局部變化特征,達到靈活挖掘藍莓高光譜中微弱特征的目的。
16、所述step4具體為:
17、step?4.1:在拉普拉斯映射算法中引入曼哈頓距離公式構(gòu)建無向權(quán)重圖,使用g(v,e)表示構(gòu)建好的圖,其中v表示圖中的各個頂點,e表示頂點和頂點之間的邊,以降低因藍莓光譜分布差異大、存在長尾和多峰的高光譜數(shù)據(jù)而導(dǎo)致的對隨后構(gòu)建拉普拉斯矩陣的影響,同時降低算法復(fù)雜度,曼哈頓距離的表達式如下:
18、
19、其中,n表示維度,xik?和?xjk?分別是兩個n維向量在第?k個維度上的坐標值;
20、step?4.2:在拉普拉斯映射算法中引入多項式核函數(shù)衡量各個樣本點間的相似性,以此計算圖中每條邊的權(quán)重,對于每個樣本點,找到與其最相似的點,然后將樣本點與其最相似的點之間的權(quán)重設(shè)置為非零值,其他非鄰近點間的權(quán)重設(shè)置為?0,最終得到權(quán)重矩陣w,以此擬合經(jīng)過fod處理后的非線性數(shù)據(jù),最大程度保留數(shù)據(jù)的內(nèi)在結(jié)構(gòu),多項式核函數(shù)的表達式如下:
21、
22、其中,x和y表示輸入的兩個向量;表示兩個向量進行點積運算;c為常數(shù)項,表示控制函數(shù)偏移量;d為多項式的次數(shù),決定映射到的高維空間的復(fù)雜性;
23、利用權(quán)重值計算對角矩陣d,其對角元素計算公式如下:
24、
25、其中,表示對角元素;
26、step?4.3:利用構(gòu)建拉普拉斯矩陣l,并求解廣義特征值分解問題,其中表示廣義特征值,以得到特征向量即所求的藍莓特征波段的集合,為保證最終特征數(shù)據(jù)的唯一性,結(jié)合約束條件將廣義特征值分解問題轉(zhuǎn)換為對d?1l進行特征值分解,其中t為轉(zhuǎn)置矩陣表示,最終取除0外的d個最小特征值對應(yīng)的特征向量得到,以此完成對藍莓特征光譜波段的提取。
27、具體地,step?4.1和step?4.2通過引入曼哈頓距離和多項式核函數(shù)對拉普拉斯映射算法進行改進,得到改進后的拉普拉斯映射算法ile,并基于ile進行step?4.3提取藍莓樣本數(shù)據(jù)中特征波段。
28、所述step5中卷積神經(jīng)網(wǎng)絡(luò)cnn結(jié)構(gòu)由1x10、1x3的卷積核和兩個1x2的最大池化層組成。
29、本發(fā)明的有益效果是:提出了在復(fù)雜場景下的藍莓糖度預(yù)測模型msc+fod+ile+cnn。相比于采用傳統(tǒng)的預(yù)處理、特征波長選擇算法和機器學(xué)習(xí)建立模型,本發(fā)明利用多元散射校正(msc)與分數(shù)階導(dǎo)數(shù)(fod)組合對復(fù)雜場景下不同品種、不同成熟度的藍莓數(shù)據(jù)進行預(yù)處理,捕捉光譜曲線中的復(fù)雜模式以更好地描述非線性變化。改進拉普拉斯映射(ile)以在適應(yīng)fod的同時更快速準確地提取波長特征,最后再利用深度學(xué)習(xí)網(wǎng)絡(luò)模型的優(yōu)勢,自定義cnn網(wǎng)絡(luò)處理高光譜數(shù)據(jù)間復(fù)雜的非線性關(guān)系。本發(fā)明提出的ile不僅保留了le算法原本的優(yōu)勢,同時能夠更好地適應(yīng)經(jīng)過fod處理后的多峰非線性復(fù)雜數(shù)據(jù),降低計算量的同時提升模型穩(wěn)健性,更好地提取藍莓高光譜中的特征波長,有效改善了基于復(fù)雜場景下藍莓高光譜的糖度預(yù)測模型現(xiàn)有的精度。所提出的模型能對不同品種、不同成熟度的藍莓糖度進行快速、準確地預(yù)測,為藍莓糖度預(yù)測的相關(guān)研究提供了有力的技術(shù)支持,也為藍莓糖度預(yù)測模型的輕量級部署提供思路。