本發(fā)明涉及水果圖像的分類決策,尤其涉及一種基于梭狀動態(tài)神經(jīng)元模型的水果圖像分類方法。
背景技術:
1、水果圖像分類是水果產(chǎn)品銷售和管理的重要環(huán)節(jié),其目的是通過機器學習或計算機視覺技術自動識別水果的類別,從而提高水果分揀、包裝、存儲和銷售的效率。傳統(tǒng)的水果分類依賴于人工操作,這不僅效率低下,還容易因人為誤差導致分類結果的不一致性。在現(xiàn)代化農(nóng)業(yè)生產(chǎn)和智能物流背景下,自動化、高精度的水果分類方法已經(jīng)成為行業(yè)迫切需求。水果圖像分類的核心在于如何有效提取水果的顏色、形狀、大小和紋理等多樣化特征,以及如何構建高效的分類模型來對提取的特征進行精準識別。然而,自然界中的水果種類繁多,類內(nèi)差異(如同一類水果在成熟度、顏色和形狀上的不同)和類間相似(如顏色或形狀相近的不同水果)都對分類技術提出了更高的要求。此外,復雜背景(如不同拍攝條件下的光照變化、遮擋等)和有限數(shù)據(jù)量(如小樣本問題)也給水果圖像分類的精度、泛化性和魯棒性帶來了極大的挑戰(zhàn)。
2、針對水果圖像分類領域的挑戰(zhàn),國內(nèi)外學者提出了多種技術和方法,主要包括基于傳統(tǒng)圖像處理方法的分類技術和基于深度學習的分類模型。傳統(tǒng)的水果圖像分類方法通常基于手工設計的特征提取技術和機器學習分類器。例如:有些方法通過顏色完全局部二值模式(clbp)來提取水果圖像的紋理特征,并采用最近鄰分類器(knn)實現(xiàn)最終分類。這種方法在紋理特征提取方面有一定的效果,但對復雜背景的魯棒性不足。還有些方法采用高斯濾波對水果圖像進行不同程度的平滑處理,再結合模擬退火粒子群算法(pso-sa)進行分類。這種方法依賴于濾波參數(shù)的調(diào)整,對光照變化敏感,實際應用效果有限。
3、隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡(cnn)成為水果圖像分類的主流方法,并衍生出多個改進模型和策略。例如:
4、專利公開號為cn118154967a的發(fā)明專利提出一種基于mobilevit網(wǎng)絡的水果分類方法,使用圖像增強技術(如隨機旋轉、平移、噪聲注入)擴充樣本數(shù)據(jù),并通過雙邊濾波去除噪聲,提高模型分類精度。這種方法在水果表面缺陷檢測方面具有一定優(yōu)勢,但網(wǎng)絡結構較復雜,推理效率相對較低。
5、專利公開號為cn114818931b的發(fā)明專利提出一種基于小樣本元學習的水果圖像分類方法,通過maml元學習框架和densenet-121網(wǎng)絡結合特征金字塔網(wǎng)絡(fpn),解決了小樣本數(shù)據(jù)集的分類問題,但需要復雜的內(nèi)外循環(huán)算法,訓練開銷較大。
6、專利公開號為cn114881155b的發(fā)明專利提出基于深度遷移學習的分類模型,通過凍結低層網(wǎng)絡參數(shù)實現(xiàn)特征提取,并優(yōu)化高層網(wǎng)絡參數(shù),用遷移模型(tl-vgg16、tl-inceptionv3和tl-resnet50)提高分類效果。然而,這種方法仍然面臨小數(shù)據(jù)集情況下的過擬合問題,對新類別水果的適應性不足。
7、盡管上述技術和專利在一定程度上提升了水果圖像分類的精度和效率,但在實際應用中仍然存在以下不足:
8、類內(nèi)差異與類間相似問題:對于同一類水果,成熟度、大小和顏色的差異會顯著增加分類難度;不同類水果(如蘋果與梨)的相似特性容易導致誤分類。
9、復雜背景的干擾:在自然采集場景中,水果常伴隨復雜的背景(如葉子、枝干或其他雜物),這些背景信息可能對分類特征提取造成干擾,降低分類準確率。
10、數(shù)據(jù)量不足與小樣本問題:某些稀有水果的圖像數(shù)據(jù)數(shù)量有限,傳統(tǒng)深度學習方法對大規(guī)模數(shù)據(jù)的依賴導致其在小樣本場景下的表現(xiàn)受限。
11、計算效率與泛化能力不足:部分方法(如遷移學習和元學習)雖然提升了分類性能,但模型復雜度較高,推理效率較低,難以滿足實時分類的需求;一些方法過于依賴特定訓練數(shù)據(jù)集,缺乏足夠的泛化能力,難以適應不同場景下的多種水果圖像分類任務。
技術實現(xiàn)思路
1、為了解決現(xiàn)有技術中水果圖像分類面臨的類內(nèi)差異大、復雜背景干擾、數(shù)據(jù)量不足以及計算效率低等問題,本發(fā)明提出了一種基于梭狀動態(tài)神經(jīng)元模型的水果圖像分類方法,本發(fā)明所述技術方案包括以下步驟:
2、s1:圖像塊劃分,具體包括以下步驟:
3、s1-1:輸入的三維水果圖像其中,h為圖像高度,w為圖像寬度,c為通道數(shù);
4、s1-2:按照固定大小p×p對輸入圖像進行分塊,得到圖像塊集合xpatch={x1,x2,...,xn},其中每個圖像塊n為圖像塊數(shù)量;
5、s1-3:將每個圖像塊通過線性投影嵌入高維特征空間,計算嵌入表示z,其計算公式為:
6、z=[x1we,x2we,...,xnwe]
7、其中,嵌入矩陣,d為嵌入維度,為嵌入表示矩陣;
8、s2:多頭自注意力機制,輸入圖像塊的嵌入表示z,應用多頭自注意力機制以捕捉圖像塊之間的長距離依賴關系,具體包括以下步驟:
9、s2-1:根據(jù)嵌入表示z生成查詢矩陣q、鍵矩陣k和值矩陣v,其計算公式分別為:
10、q=zwq,k=zwk,v=zwv
11、其中,wq,wk,分別為查詢、鍵和值的投影矩陣;
12、s2-2:計算注意力權重矩陣a,其計算公式為:
13、
14、其中,dembed為鍵矩陣和查詢矩陣的維度,用于縮放,避免高維數(shù)據(jù)內(nèi)積值過大;
15、s2-3:基于權重矩陣計算注意力輸出z′,其計算公式為:
16、z′=a⊙v
17、其中,⊙表示矩陣乘法操作;
18、s2-4:對h個不同的注意力頭分別進行上述處理,最終將多個頭的輸出拼接為多頭注意力結果,其計算公式為:
19、z′multi_head=[z1,z2,...,zh]wo
20、其中,zi為第i個頭的注意力結果,為輸出權重矩陣,h表示頭的數(shù)量;
21、s3:殘差連接與歸一化:將多頭注意力結果z′multi_head與嵌入表示z進行殘差連接,得到殘差結果:zresidual=z+z′multi_head;對殘差結果進行歸一化,計算歸一化后的結果z″,其計算公式為:
22、
23、其中,μ為均值,σ為標準差;
24、s4:前饋網(wǎng)絡處理:輸入歸一化后的嵌入表示z″,通過前饋神經(jīng)網(wǎng)絡進行非線性變換,具體包括以下步驟:
25、s4-1:使用全連接層和激活函數(shù)計算特征變換,其計算公式為:
26、f(z″)=w2(max(0,z″w1+b1))+b2
27、其中,為前饋網(wǎng)絡的權重矩陣,b1,b2為偏置項,dhidden為隱藏層維度;
28、s4-2:將前饋網(wǎng)絡輸出與輸入z″進行殘差連接,得到最終前饋網(wǎng)絡處理結果,其計算公式為:
29、
30、其中,μ′為殘差連接后的均值,σ′為標準差;
31、s5:分類器分類:輸入經(jīng)前饋網(wǎng)絡處理后的特征表示zout,通過分類器完成水果圖像分類;分類器根據(jù)zout的特征分布,輸出對應水果類別的預測結果。
32、作為本發(fā)明的一個技術優(yōu)選方案,步驟s5中所述分類器通過以下步驟完成對數(shù)據(jù)的分類:
33、s5-1:最大平均池化操作:將經(jīng)過多頭自注意力機制和前饋網(wǎng)絡處理后的輸出數(shù)據(jù)zout進行最大平均池化處理,計算公式為:
34、
35、其中,n表示第n個樣本,c表示通道數(shù),h和w分別是高度和寬度索引,h′和w′表示池化后的維度,kh和kw為池化核的高度和寬度;
36、s5-2:突觸層處理:將最大平均池化后的數(shù)據(jù)傳輸?shù)剿鬆顒討B(tài)神經(jīng)元模型(fv-dnm)的突觸層;突觸層根據(jù)輸入計算突觸響應值sij,其計算公式為:
37、
38、其中,k為距離參數(shù);wij為突觸權重,由正態(tài)分布函數(shù)隨機生成;tanh表示雙曲正切函數(shù),其計算公式為:
39、s5-3:樹突層求和:突觸層的輸出傳遞到樹突層,樹突層對單個樹突上的突觸響應值sij進行求和,其計算公式為:
40、
41、其中,n為突觸的數(shù)量,dj表示第j個樹突分支的求和值;
42、s5-4:膜層求和:樹突層的輸出傳遞到膜層,膜層對所有樹突分支的輸出進行求和,其計算公式為:
43、
44、其中,m為樹突分支的數(shù)量,e為膜層的輸出;
45、s5-5:體細胞層調(diào)節(jié):膜層的輸出傳遞到體細胞層,體細胞層根據(jù)突觸的歷史活動數(shù)據(jù)進行調(diào)節(jié),最終計算輸出o,其計算公式為:
46、
47、其中,kv為可學習縮放參數(shù),meanj(wij)為沿列計算均值,exp表示自然指數(shù)函數(shù),σ為激活函數(shù);
48、s5-6:軸突層輸出:體細胞層的調(diào)節(jié)輸出o與膜層輸出e一起傳輸?shù)捷S突層,軸突層進行匯總并生成最終分類結果,其計算公式為:
49、t=e⊙o
50、其中,t為分類器的最終輸出,用于水果圖像分類。
51、作為本發(fā)明的一個技術優(yōu)選方案,步驟s5-2中所述的梭狀動態(tài)神經(jīng)元模型具有以下系統(tǒng)結構:
52、t1:輸入層:輸入層接收經(jīng)過預處理的水果圖像,輸入數(shù)據(jù)形狀為(batch_size,3,64,64),其中batch_size為批處理大小,3表示rgb通道數(shù),64×64表示圖像的高度和寬度;預處理步驟包括圖像歸一化和標準化,用于消除圖像亮度和對比度的影響;
53、t2:卷積層與池化層,包括以下特征:
54、所述卷積層由若干堆疊的卷積單元組成,每個卷積單元通過卷積核對輸入特征圖進行局部區(qū)域的特征提?。?/p>
55、卷積層輸出與最大池化層和平均池化層連接,通過池化操作降低特征圖的分辨率,壓縮數(shù)據(jù)規(guī)模;
56、所述最大池化層和平均池化層的輸出通過最大平均池化機制融合,將局部特征和全局特征進行統(tǒng)一表達;
57、卷積層與池化層輸出的融合特征圖與梭狀動態(tài)神經(jīng)元層直接連接。
58、t3:梭狀動態(tài)神經(jīng)元層(dnm),包括以下特征:
59、所述dnm層根據(jù)輸入的特征圖動態(tài)調(diào)整突觸權重,模擬生物梭狀神經(jīng)元的動態(tài)響應過程;
60、所述dnm層包括突觸子層、樹突子層和膜子層:
61、梭狀動態(tài)神經(jīng)元層的輸出特征表示與分類器直接連接。
62、作為本發(fā)明的一個技術優(yōu)選方案,所述突觸子層通過基于輸入特征分布的權重計算,生成動態(tài)突觸連接權重;
63、所述樹突子層對單個樹突上的多突觸響應值進行加權求和,生成樹突輸出;
64、所述膜子層對所有樹突分支的輸出進行匯總,得到經(jīng)過特征融合的高階特征表示;
65、所述梭狀動態(tài)神經(jīng)元層與卷積層和池化層的輸出直接連接,接收融合后的特征圖作為輸入;
66、所述梭狀動態(tài)神經(jīng)元層的輸出直接作為分類器的輸入,用于生成最終的分類結果。
67、作為本發(fā)明的一個技術優(yōu)選方案,結構t1中所述的預處理步驟包括以下步驟:
68、尺寸調(diào)整:將原始水果圖像調(diào)整為固定大小的圖像,統(tǒng)一調(diào)整為64×64像素;其中,尺寸調(diào)整采用雙線性插值或最近鄰插值方法;
69、數(shù)據(jù)增強:利用數(shù)據(jù)增強技術對圖像樣本進行隨機變換,增加數(shù)據(jù)集的多樣性和豐富性,其中,數(shù)據(jù)增強方法包括隨機旋轉、隨機翻轉、隨機裁剪和顏色調(diào)整;
70、歸一化處理:對水果圖像的像素值進行歸一化處理,將像素值從區(qū)間[0,255]映射到[0,1],其計算公式為:
71、
72、其中,μ為像素均值,σ為像素標準差。
73、作為本發(fā)明的一個技術優(yōu)選方案,所述的水果圖像分類方法進一步包括基于梭狀動態(tài)神經(jīng)元模型的實際分類過程,分類過程包括以下步驟:
74、特征提?。狠斎氲乃麍D像通過訓練完成的梭狀動態(tài)神經(jīng)元模型進行預測;圖像首先經(jīng)過卷積層和池化層,從輸入數(shù)據(jù)中提取低級和中級特征;提取的中級特征通過自注意力機制進一步處理,生成包含全局上下文信息和動態(tài)響應的高級特征表示;
75、類別預測:高級特征表示輸入到梭狀動態(tài)神經(jīng)元模型(fv-dnm),通過其梭狀神經(jīng)元層中的突觸層、樹突層和膜層逐步處理,實現(xiàn)對水果類別的映射;梭狀動態(tài)神經(jīng)元模型的軸突層將映射結果轉換為輸出層的類別預測概率,生成每個類別對應的置信度值;
76、top-n預測:結合模型輸出的預測概率支持top-n分類結果,模型將輸出置信度最高的n個類別。
77、與現(xiàn)有技術相比,本發(fā)明的有益效果是:
78、提升分類精度與魯棒性:本發(fā)明引入梭狀動態(tài)神經(jīng)元模型(fv-dnm),結合梭狀神經(jīng)元的動態(tài)突觸調(diào)整機制和非線性變換能力,實現(xiàn)了對水果圖像復雜特征的高效學習;自注意力機制的應用能夠捕捉圖像中的全局和局部特征,尤其對類內(nèi)差異大和類間相似的問題有顯著改善;最大平均池化機制結合動態(tài)權重調(diào)整方法,有效消除了復雜背景的干擾,提高了分類的魯棒性和準確性。
79、增強小樣本場景下的泛化能力:本發(fā)明通過動態(tài)權重更新和生物學啟發(fā)的突觸機制,在小樣本數(shù)據(jù)集下具備優(yōu)異的學習能力;梭狀神經(jīng)元的動態(tài)調(diào)整機制適應數(shù)據(jù)量不足的情況,大幅提升了模型在多場景和不同數(shù)據(jù)分布中的泛化性能。
80、提高模型的生物學解釋性:fv-dnm模型基于生物神經(jīng)元的特性,采用類似突觸動態(tài)調(diào)整和樹突信息整合的結構,使得模型具有生物學解釋性;這種機制不僅適用于圖像分類任務,還能為神經(jīng)科學和其他生物學領域的研究提供啟發(fā)。
81、提高計算效率并降低訓練難度:梭狀動態(tài)神經(jīng)元模型的模塊化設計使模型更加輕量化,減少了參數(shù)量和計算成本;分類過程中結合動態(tài)調(diào)整和特征聚合機制,使得推理速度顯著提升,適用于實時分類任務。