最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于YOLO與Transformer橋接的范圍自適應(yīng)脈沖神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)方法

文檔序號(hào):41955563發(fā)布日期:2025-05-16 14:22閱讀:10來源:國(guó)知局
一種基于YOLO與Transformer橋接的范圍自適應(yīng)脈沖神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)方法

本發(fā)明涉及人工智能與目標(biāo)檢測(cè),特別涉及一種基于yolo與transformer橋接的范圍自適應(yīng)脈沖神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)方法。


背景技術(shù):

1、目標(biāo)檢測(cè)旨在從圖像中自動(dòng)識(shí)別和定位感興趣的目標(biāo),精確地識(shí)別出圖像中的物體,并標(biāo)出其在圖像中的位置和類別。目標(biāo)檢測(cè)在智能制造、自動(dòng)駕駛及智能安防等領(lǐng)域發(fā)揮著至關(guān)重要的作用,可應(yīng)用的領(lǐng)域如生產(chǎn)線上的缺陷檢測(cè),車輛及交通標(biāo)識(shí)等的自動(dòng)識(shí)別,非法入侵者智能報(bào)警等。

2、近年來,人工神經(jīng)網(wǎng)絡(luò)(artificial?neural?network,ann)在目標(biāo)檢測(cè)領(lǐng)域取得了顯著進(jìn)展。然而在實(shí)際應(yīng)用場(chǎng)景中,由于計(jì)算資源的有限性和設(shè)備的能耗要求,ann方法仍面臨諸多挑戰(zhàn)。特別是在嵌入式設(shè)備和移動(dòng)設(shè)備等低功耗場(chǎng)景中,ann的高計(jì)算需求常常導(dǎo)致能效問題,這極大地限制了其在這些場(chǎng)景中的應(yīng)用。相比之下,脈沖神經(jīng)網(wǎng)絡(luò)(spikingneural?network,snn)通過事件驅(qū)動(dòng)的計(jì)算方式,能夠以更高的計(jì)算效率和更低的能耗完成任務(wù),因此snn目標(biāo)檢測(cè)方法受到了研究者的廣泛關(guān)注。這類方法通過稀疏的脈沖信號(hào)進(jìn)行信息傳遞,顯著減少計(jì)算量和能源消耗,被視為推動(dòng)人工智能技術(shù)在低功耗設(shè)備上應(yīng)用的重要方向。

3、目前,snn目標(biāo)檢測(cè)領(lǐng)域的研究方法大致可分為三大類,(1)無監(jiān)督學(xué)習(xí)算法,該方法利用snn的hebbian學(xué)習(xí)規(guī)則,根據(jù)神經(jīng)元脈沖的相對(duì)時(shí)間修改神經(jīng)元之間的連接來學(xué)習(xí)模型。(2)ann-to-snn轉(zhuǎn)換方法,該方法根據(jù)ann激活值和snn平均點(diǎn)火率的匹配,將預(yù)訓(xùn)練ann模型的參數(shù)映射到其對(duì)應(yīng)的snn模型。(3)直接訓(xùn)練snn的方法,該方法利用代理梯度解決脈沖的不可微問題,從頭訓(xùn)練snn模型。

4、直接訓(xùn)練snn利用代理梯度解決脈沖的不可微問題,在數(shù)據(jù)集上直接進(jìn)行訓(xùn)練,可以在較少的時(shí)間步長(zhǎng)內(nèi)實(shí)現(xiàn)高性能且有效地處理靜態(tài)圖像和事件數(shù)據(jù),同時(shí)避免了ann預(yù)訓(xùn)練模型精度和結(jié)構(gòu)的限制,在模型構(gòu)建上表現(xiàn)出更高的靈活性。與無監(jiān)督學(xué)習(xí)算法相比,直接訓(xùn)練方式能夠構(gòu)建更深層次的復(fù)雜神經(jīng)網(wǎng)絡(luò),具有更高的性能上限。相比于ann-to-snn轉(zhuǎn)換方法,直接訓(xùn)練方式避免了預(yù)訓(xùn)練ann在模型結(jié)構(gòu)和性能上的限制,且能夠更好的處理事件數(shù)據(jù)。因此,直接訓(xùn)練snn方法在實(shí)際檢測(cè)場(chǎng)景中具有更強(qiáng)的實(shí)用性,在過去的研究中占據(jù)了主導(dǎo)地位。本發(fā)明主要針對(duì)直接訓(xùn)練snn的目標(biāo)檢測(cè)領(lǐng)域,并提出一種基于yolo與transformer橋接的范圍自適應(yīng)snn目標(biāo)檢測(cè)方法。

5、近年來流行的直接訓(xùn)練的snn目標(biāo)檢測(cè)方法主要包括純yolo構(gòu)架和混合transformer構(gòu)架的方法。大多數(shù)用于目標(biāo)檢測(cè)的snn都是基于純yolo構(gòu)架,這類方法通過加入脈沖神經(jīng)元和梯度代替函數(shù),搭建可以直接訓(xùn)練的基于snn的yolo模型。例如“su?q,chou?y,hu?y,et?al.deep?directly-trained?spiking?neural?networks?for?objectdetection[c]//proceedings?of?the?ieee/cvf?international?conference?oncomputer?vision.2023:6555-6565”提出了一種全脈沖能量高效殘差塊ems-resnet,避免了非脈沖卷積帶來的冗余mac操作,從而構(gòu)建了直接訓(xùn)練snn目標(biāo)檢測(cè)的框架ems-yolo,具有更高的性能和更低的能耗;“l(fā)uo?x,yao?m,chou?y,et?al.integer-valued?trainingand?spike-driven?inference?spiking?neural?network?for?high-performance?andenergy-efficient?object?detection[c]//european?conference?on?computervision.springer,cham,2025:253-272”提出了spikeyolo,簡(jiǎn)化了yolov8設(shè)計(jì)使其更適合snn目標(biāo)檢測(cè)任務(wù),同時(shí)提出了i-lif(整數(shù)漏型積分-點(diǎn)火)神經(jīng)元,通過整數(shù)訓(xùn)練和脈沖推理的方式減少脈沖神經(jīng)元的量化誤差并降低功耗,是目前最先進(jìn)的脈沖神經(jīng)元設(shè)計(jì)和snn目標(biāo)檢測(cè)框架。然而純卷積的結(jié)構(gòu)由于其小感受野的特性使得這些方法在全局建模能力方面仍有不足,故一些方法提出了混合transformer構(gòu)架的snn目標(biāo)檢測(cè)框架。這些方法通過引入transformer來提高全局建模能力,從而提升模型性能。例如“yao?m,hu?j,hu?t,etal.spike-driven?transformer?v2:meta?spiking?neural?network?architectureinspiring?the?design?of?next-generation?neuromorphic?chips[j].arxiv?preprintarxiv:2404.03663,2024”將transformer構(gòu)架引入snn目標(biāo)檢測(cè)構(gòu)建出meta-transformer,該模型由串聯(lián)的conv-based?snn?block和transformer-based?snn?block組成,最后直接連接檢測(cè)頭,借由transformer提升了模型的性能。盡管現(xiàn)有方法是有效的,但忽略了三個(gè)重要因素:(1)snn的主要應(yīng)用優(yōu)勢(shì)在于其低能耗的特性,可以在嵌入式設(shè)備和移動(dòng)設(shè)備等低功耗場(chǎng)景中充分發(fā)揮作用,但是目前transformer混合構(gòu)架都引入了過多次自注意力機(jī)制,使得模型能耗上漲甚至接近ann在同場(chǎng)景下的功耗,不能體現(xiàn)snn的低功耗優(yōu)勢(shì)。(2)transformer的加入雖然提升了模型的全局建模能力,但是混合構(gòu)架去除了特征融合階段,會(huì)在有效提取局部特征方面存在瓶頸,影響模型性能。(3)在snn中引入transformer構(gòu)架需要對(duì)應(yīng)的脈沖自注意力來做尺度內(nèi)交互,現(xiàn)有方法雖然提出了與snn兼容的脈沖自注意力,但缺乏針對(duì)i-lif神經(jīng)元的合理的縮放因子。這導(dǎo)致這些注意力機(jī)制只能適用于0/1二值輸出的lif神經(jīng)元,而在面對(duì)輸出多整數(shù)脈沖的i-lif神經(jīng)元時(shí),可能會(huì)出現(xiàn)梯度消失的狀況,影響模型精度的提升。

6、針對(duì)以上問題,本發(fā)明提出一種基于yolo與transformer橋接的范圍自適應(yīng)脈沖神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)方法,旨在保持snn低功耗特性的情況下結(jié)合transformer的全局建模能力和yolo的局部感知特性,并配合i-lif神經(jīng)元完成整數(shù)訓(xùn)練和脈沖推理的過程,從而在保持低功耗的情況下完成yolo與transformer的有效橋接,使模型能夠?qū)o態(tài)圖像和事件數(shù)據(jù)進(jìn)行精準(zhǔn)的目標(biāo)檢測(cè)。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問題,本發(fā)明的目的是提供一種基于yolo與transformer橋接的范圍自適應(yīng)脈沖神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)方法。該方法通過頂部注意力混合特征融合(top-attention?hybrid?feature?fusion,tahff)模塊,包括使用基于自注意力操作的尺度內(nèi)交互對(duì)高層特征進(jìn)行全局建模,捕捉語(yǔ)義信息和概念實(shí)體之間的關(guān)系,并有效降低了能量消耗;以及采用跨尺度特征融合方法,彌補(bǔ)了transformer在局部特征提取方面的不足,實(shí)現(xiàn)了在低功耗條件下高效融合yolo的局部建模能力與transformer的全局建模能力,從而提升模型性能。此外,本發(fā)明還提出了一種范圍自適應(yīng)脈沖注意力(range-adaptive?spikingattention,rasa)模塊,用于尺度內(nèi)交互,通過調(diào)節(jié)縮放系數(shù)避免梯度消失現(xiàn)象,配合i-lif神經(jīng)元適配任意整數(shù)輸出進(jìn)行整數(shù)訓(xùn)練與脈沖推理的自注意力操作,從而在低功耗的前提下提升模型的性能。因此,該方法不僅在有效保持snn低功耗優(yōu)勢(shì)的條件下通過橋接yolo和transformer提高了snn目標(biāo)檢測(cè)的精度,還解決了i-lif神經(jīng)元缺乏合理自注意力縮放因子的問題,提升自注意力操作有效性,顯著提升了snn目標(biāo)檢測(cè)的性能。

2、本發(fā)明的技術(shù)方案:一種基于yolo與transformer橋接的范圍自適應(yīng)脈沖神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)方法,包括以下步驟:

3、步驟1:針對(duì)靜態(tài)圖像數(shù)據(jù)集和動(dòng)態(tài)圖像數(shù)據(jù)集分別進(jìn)行數(shù)據(jù)預(yù)處理,分別獲得脈沖特征矩陣inputt×c×h×w,其中t表示時(shí)間步長(zhǎng),c表示通道數(shù),h×w表示空間分辨率;

4、步驟2:處理步驟1中得到的脈沖特征矩陣inputt×c×h×w,通過下采樣層和基于脈沖的卷積塊snnblock提取低層細(xì)節(jié)特征,得到低層脈沖特征矩陣featurelow-stage2;

5、步驟3:處理高階特征,通過下采樣層和多尺度特征融合模塊msff對(duì)步驟2中得到的低層脈沖特征矩陣featurelow-stage2提取高層語(yǔ)義信息,得到脈沖特征矩陣featurehigh-stage3和空間金字塔池化輸出的矩陣;

6、步驟4:對(duì)步驟2的低層細(xì)節(jié)特征和步驟3中的高層語(yǔ)義信息進(jìn)行特征通道維度對(duì)齊,低層脈沖特征矩陣featurelow-stage2、脈沖特征矩陣featurehigh-stage3和空間金字塔池化輸出的矩陣經(jīng)對(duì)齊后分別為s3特征矩陣、s4特征矩陣、s5特征矩陣,用于后續(xù)尺度內(nèi)交互和特征融合的特征矩陣;

7、步驟5:對(duì)步驟4中輸出的s5特征矩陣應(yīng)用基于自注意力操作的尺度內(nèi)交互;

8、步驟6:對(duì)步驟4得到的s3、s4以及步驟5中得到的f5進(jìn)行跨尺度特征融合;

9、步驟7:使用聯(lián)合損失函數(shù)訓(xùn)練網(wǎng)絡(luò)直至收斂;收斂后的整體網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)。

10、所述靜態(tài)圖像數(shù)據(jù)集獲得脈沖特征矩陣的過程如下:沿時(shí)間維度重復(fù)靜態(tài)圖像并將其作為每個(gè)時(shí)間步t的輸入值;通過脈沖神經(jīng)元將連續(xù)的輸入值編碼為脈沖信號(hào),得到脈沖特征矩陣。

11、所述動(dòng)態(tài)圖像數(shù)據(jù)集為神經(jīng)形態(tài)數(shù)據(jù),每一數(shù)據(jù)點(diǎn)為一個(gè)事件,包括像素坐標(biāo)、時(shí)間戳和極性;獲得脈沖特征矩陣的過程如下:將固定時(shí)間窗口內(nèi)的事件流聚合為幀;給定時(shí)空窗口ζ,異步事件流e={en∈ζ:n=1,...,n}表示三維空間中點(diǎn)的稀疏網(wǎng)格,用常量時(shí)間窗口dt將e分割成時(shí)間間隔,將事件映射為圖像的二維矩陣表示形式;每次處理t個(gè)固定的時(shí)間步長(zhǎng),總序列γ=t×dt,其中dt和t分別為常量時(shí)間窗口和時(shí)間步長(zhǎng),通過脈沖神經(jīng)元將總序列γ連續(xù)的輸入值編碼為脈沖信號(hào),得到脈沖特征矩陣。

12、所述脈沖特征矩陣inputt×c×h×w通過stage-1和stage-2依次進(jìn)行初步特征提??;所述stage-1和stage-2結(jié)構(gòu)相同,均由一個(gè)下采樣層和一個(gè)snnblock組成;

13、所述stage-1處理流程如下:脈沖特征矩陣inputt×c×h×w先經(jīng)過下采樣層得到矩陣輸入到snnblock中進(jìn)行特征提取,所述snnblock的結(jié)構(gòu)如下:

14、

15、featurelow-stage1=input′+channelconv(input′)?(2)

16、其中,+表示矩陣相加操作即完成殘差連接,input′∈rt×c×h×w表示經(jīng)過第一個(gè)殘差后的中間輸出矩陣,featurelow-stage1∈rt×c×h×w表示snnblock的輸出矩陣,t表示時(shí)間步長(zhǎng),c表示通道數(shù),h×w表示空間分辨率;

17、sepconv(·)是具有7×7卷積核的反向可分離卷積模塊用于捕獲全局特征,并加入一個(gè)3×3卷積以進(jìn)一步進(jìn)行空間特征融合;所述sepconv(·)具體表示為:

18、

19、其中,convpw1(·)和convpw2(·)是逐點(diǎn)卷積,convdw1(·)和convdw2(·)是深度卷積,bn(·)表示批量歸一化操作;

20、channelconv(·)作為通道混合器實(shí)現(xiàn)通道間信息融合,表示為:

21、channelconv(input′)=conv3×3(sn(conv3×3(sn(input′))))?(4)

22、其中,conv3×3(·)代表卷積核大小為3×3的標(biāo)準(zhǔn)卷積操作;

23、sn(·)表示脈沖神經(jīng)元層,使用i-lif神經(jīng)元,其具體計(jì)算方式如下:

24、u[t]=h[t-1]+x[t]?(5)

25、h[t]=β(u[t]-s[t])?(6)

26、s[t]=clip(round(u[t]),0,d)?(7)

27、其中t表示脈沖時(shí)間步長(zhǎng),u[t]表示融合了上一個(gè)時(shí)間步t的時(shí)間信息h[t-1]和當(dāng)前t時(shí)刻輸入的空間信息x[t]的膜電位,s[t]表示整數(shù)脈沖矩陣,round(·)表示四舍五入函數(shù),clip(x,min,max)表示將x裁剪在[min,max]范圍內(nèi),d是一個(gè)表示i-lif神經(jīng)元所能發(fā)出的最大整數(shù)值的超參數(shù);膜電位u[t]以β的因子衰減,并在發(fā)射脈沖s[t]后通過減去s[t]進(jìn)行重置,否則h[t]將保持不變;

28、在推理階段,i-lif神經(jīng)元發(fā)射的整數(shù)脈沖值通過以下公式(8)轉(zhuǎn)換為二進(jìn)制脈沖,從而確保推理階段為脈沖驅(qū)動(dòng);

29、

30、其中xl[t]表示第l層神經(jīng)元的輸入,而sl[t,d]表示脈沖序列,其中僅包含0/1,而wl表示展開過程中提取的系數(shù)矩陣;

31、整個(gè)i-lif脈沖神經(jīng)元模型表示為:

32、s=sn(u)?(9)

33、其中sn(·)即為上述提到的脈沖神經(jīng)元層,其輸入為膜電位張量u,輸出為脈沖張量s;

34、stage-2和stage-1的結(jié)構(gòu)和處理流程完全一致,將featurelow-stage1通過stage-2處理形成低層脈沖特征矩陣featurelow-stage2。

35、所述低層脈沖特征矩陣featurelow-stage2通過stage-3和stage-4從不同層次捕捉物體的多維特征,所述stage-3和stage-4二者結(jié)構(gòu)相同均由一個(gè)下采樣層和一個(gè)多尺度特征融合模塊組成;最終通過空間金字塔池化sppf對(duì)stage-4輸出的脈沖特征矩陣featurehigh-stage4進(jìn)行多尺度的空間池化處理;

36、所述stage-3處理流程如下:低層脈沖特征矩陣featurelow-stage2先經(jīng)過下采樣層處理得到矩陣再輸入到多尺度特征融合模塊,其結(jié)構(gòu)如下:

37、

38、featurehigh-stage3=f3′+channelconv2(f3′)?(11)

39、其中,f3′∈rt×c×h×w表示經(jīng)過第一個(gè)殘差后的中間輸出矩陣,featurehigh-stage3∈rt×c×h×w表示多尺度特征融合模塊的輸出矩陣;

40、dmsff(·)是膨脹多尺度特征融合模塊,主要由四個(gè)并行的具有不同擴(kuò)張率的擴(kuò)展分組卷積組成;對(duì)四個(gè)擴(kuò)展分組卷積輸出進(jìn)行通道連接,并使用1×1卷積塊進(jìn)行通道下采樣;膨脹多尺度特征融合模塊具體描述為:

41、

42、其中,表示卷積為大小為3×3的擴(kuò)張卷積,表示通過擴(kuò)張卷積得到的特征矩陣,d表示擴(kuò)張率,g表示組,c表示通道數(shù),sn(·)表示脈沖神經(jīng)元層,concat(·)表示矩陣拼接操作,conv1×1(·)表示卷積為大小為1×1的標(biāo)準(zhǔn)卷積;膨脹多尺度特征融合模塊的結(jié)果輸入到sepconv(·)中對(duì)特征進(jìn)行細(xì)化;

43、channelconv2(·)作為通道混合器實(shí)現(xiàn)通道間信息融合,采用核大小為3×3的重參數(shù)化卷積來最小化參數(shù)計(jì)數(shù),描述為:

44、channelconv2(f′3)=bn(repconv(sn(bn(repconv(sn(f′3))))))???(14)

45、repconv(u′)=convpw2(convdw1(convpw1(u′)))????(15)

46、其中,repconv(·)表示核大小為3×3重參數(shù)化卷積,u′∈rt×c×h×w表示repconv(·)的輸入矩陣,在推理過程中被重新參數(shù)化為標(biāo)準(zhǔn)卷積;convpw1(·)和convpw2(·)是逐點(diǎn)卷積,convdw1(·)是深度卷積,sn(·)表示脈沖神經(jīng)元層,bn(·)表示批量歸一化操作;

47、stage-4和stage-3的結(jié)構(gòu)和處理流程完全一致,將featurehigh-stage3通過stage-4處理形成脈沖特征矩陣featurehigh-stage4;

48、所述空間金字塔池化描述為:

49、y1=maxpool(featurehigh-stage4)y2=maxpool(y1)y3=maxpool(y2)?(16)

50、sppf(featurehigh-stage4)=conv1×1(sn(concat(featurehigh-stage4,y1,y2,y3)))(17)

51、其中,maxpool(·)表示核大小為5×5的最大池化操作,y1、y2、y3表示經(jīng)過池化操作的輸出矩陣,conv1×1(·)代表卷積核為1×1的標(biāo)準(zhǔn)卷積操作,sn(·)表示脈沖神經(jīng)元層,concat(·)表示矩陣拼接操作。

52、所述步驟4具體為:將步驟2中stage-2的輸出、步驟3中stage-3以及sppf的輸出矩陣輸入到lcb塊中進(jìn)行通道對(duì)齊,其結(jié)構(gòu)如下:

53、lcb(uin)=bn(conv(sn(uin)))?(18)

54、其中uin∈rt×c×h×w表示層輸入矩陣,bn(·)表示批量歸一化操作,conv(·)代表標(biāo)準(zhǔn)卷積操作,sn(·)表示脈沖神經(jīng)元層;conv(·)采取卷積核為1×1的卷積,此時(shí)lcb塊為一個(gè)卷積核為1×1的脈沖卷積操作,用于特征矩陣通道維度調(diào)整;

55、將stage-2、stage-3以及sppf經(jīng)過lcb對(duì)齊后的特征矩陣分別記為s3、s4和s5,用于后續(xù)過程中的尺度內(nèi)交互和特征融合操作。

56、所述尺度內(nèi)交互通過基于transformer的snn塊完成;所述基于transformer的snn塊包括一個(gè)范圍自適應(yīng)脈沖注意力rasa和一個(gè)spikemlp;用于尺度內(nèi)交互的基于transformer的snn塊表示為:

57、attention=s5+rasa(q,k,v)?(19)

58、f5=attention+spikemlp(attention)?(20)

59、spikemlp(attention)=sn(sn(attention)w1)w2?(21)

60、其中,attention∈rt×c×h×w表示經(jīng)過第一個(gè)殘差后的中間輸出矩陣,f5∈rt×c×h×w表示transformer-based?snn?block的輸出矩陣,w1∈rc×rc和w2∈rc×rc是擴(kuò)展比r=4的脈沖mlp的可學(xué)習(xí)參數(shù);rasa表示如下:

61、qs=sn(conv1×1(q)),kf=conv1×1(k),vf=conv1×1(v)?(22)

62、

63、rasa(q,k,v)=sn(attnmap·vf*c2)?(24)

64、其中,q,k,v代表參與自注意力操作的query、key、value矩陣,本質(zhì)仍為輸入矩陣s5∈rt×c×h×w,conv1×1(·)代表卷積核為1×1的標(biāo)準(zhǔn)卷積操作,sn(·)表示脈沖神經(jīng)元層,·表示矩陣乘法,*表示矩陣與系數(shù)的數(shù)乘,attnmap是過程中輸出的注意力圖,c1和c2表示兩個(gè)縮放因子防止在脈沖注意力過程中出現(xiàn)梯度消失問題,其中:

65、

66、和fattn分別是qs和脈沖注意力圖attn的平均觸發(fā)率,d表示嵌入維度,h和w表示輸入的空間高度和寬度,p表示所使用卷積的步幅,d是表示i-lif最大整數(shù)值的超參數(shù)沖。

67、所述跨尺度特征融合具體為:首先將f5進(jìn)行上采樣與s4特征矩陣進(jìn)行空間對(duì)齊,然后進(jìn)行拼接并輸入到msff中融合不同尺度的特征,再通過lcb與s3特征矩陣進(jìn)行通道對(duì)齊:

68、fusion1=lcb(msff(concat(s4,upsampling(f5))))?(27)

69、然后再通過上采樣與s3特征矩陣進(jìn)行空間維度對(duì)齊并輸入到msff中:

70、fusion2=msff(concat(s3,upsampling(fusion1)))?(28)

71、其中,upsampling(·)表示上采樣操作;concat(·)表示矩陣拼接操作;

72、接著通過lcb進(jìn)行維度對(duì)齊,再結(jié)合msff進(jìn)行特征融合:

73、fusion3=msff(concat(fusion1,lcb(fusion2)))?(29)

74、fusion4=msff(concat(upsampling(f5),lcb(fusion3)))?(30)

75、其中,upsampling(·)表示上采樣操作;concat(·)表示矩陣拼接操作;msff(·)和步驟3中描述一致。

76、采用yolov8網(wǎng)絡(luò)的檢測(cè)頭和損失函數(shù),將步驟6得到fusion2、fusion3、fusion4輸入到檢測(cè)頭中轉(zhuǎn)化為具體的預(yù)測(cè)結(jié)果,包括邊界框的坐標(biāo)、置信度和類別概率,然后通過聯(lián)合損失函數(shù)計(jì)算損失;yolov8的聯(lián)合損失函數(shù)定義如下:

77、loss=λ1·lbce+λ2·lciou+λ3·ldflconcat(·)?(31)

78、其中,lbce是二分類交叉熵?fù)p失用于計(jì)算分類損失;lciou是完全交并比損失,ldfl是分布焦點(diǎn)損失,二者一起作為定位損失;λ1、λ2、λ3為損失函數(shù)權(quán)重。

79、本發(fā)明的有益效果是:本發(fā)明基于高層脈沖的稀疏和穩(wěn)定性設(shè)計(jì)了一個(gè)高效的頂部注意力混合特征融合(top-attention?hybrid?feature?fusion,tahff)模塊,包括基于自注意力操作的尺度內(nèi)交互和跨尺度特征融合。考慮到網(wǎng)絡(luò)淺層脈沖信號(hào)往往缺乏穩(wěn)定性和語(yǔ)義信息,在其上進(jìn)行尺度內(nèi)交互會(huì)存在冗余以及混淆的風(fēng)險(xiǎn),故僅在穩(wěn)定且語(yǔ)義概念豐富的高層特征上進(jìn)行基于注意力的特征交互,降低能量消耗的同時(shí)充分發(fā)揮注意力的全局建模優(yōu)勢(shì)。隨后與低層特征進(jìn)行有效的跨尺度特征融合,彌補(bǔ)transformer在局部特征提取方面的瓶頸。以此在保持snn低功耗優(yōu)勢(shì)的條件下完成yolo與transformer的有效橋接,高效完成snn目標(biāo)檢測(cè)任務(wù)。此外,本發(fā)明設(shè)計(jì)了一個(gè)范圍自適應(yīng)脈沖注意力(range-adaptive?spiking?attention,rasa)用于尺度內(nèi)交互,通過調(diào)節(jié)縮放系數(shù),從而達(dá)到避免梯度消失、適配任意整數(shù)脈沖值做自注意力操作的效果,在保持低功耗的條件下增強(qiáng)了模型的場(chǎng)景感知能力,使模型能有效檢測(cè)感興趣目標(biāo)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1