最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

目標檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)與流程

文檔序號:41953635發(fā)布日期:2025-05-16 14:17閱讀:6來源:國知局
目標檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)與流程

本技術(shù)涉及模型檢測,具體地,涉及一種目標檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)。


背景技術(shù):

1、在計算機視覺領(lǐng)域,傳統(tǒng)目標檢測算法如yolo(一種高效的目標檢測算法)通過單階段設(shè)計實現(xiàn)實時檢測,其將圖像劃分為網(wǎng)格并直接回歸邊界框與類別概率,具有速度快的特點,但在小目標和密集場景中精度受限?;趖ransformer的模型如vit(visiontransformer,視覺自注意力模型)通過自注意力機制建模全局上下文,突破了cnn(傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò))的局部感受野限制,但其在小數(shù)據(jù)集上易過擬合,且現(xiàn)有正則化方法存在注意力權(quán)重分布破壞、語義信息丟失等問題。結(jié)合vit與faster?r-cnn(快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò))的vit-frcnn利用transformer增強主干網(wǎng)絡(luò)特征提取能力,提升了復(fù)雜場景下的語義理解精度,但仍受限于faster?r-cnn兩階段流程的固有缺陷,例如候選框質(zhì)量依賴和nms(非極大值抑制)導(dǎo)致的冗余框誤刪問題。而detr(一種基于transformer架構(gòu)的目標檢測算法)作為端到端transformer檢測器,通過編碼器-解碼器架構(gòu)直接輸出檢測結(jié)果,避免了rpn(區(qū)域提議網(wǎng)絡(luò))和nms步驟,在多目標場景中表現(xiàn)優(yōu)異,但其全局注意力機制在遮擋或目標重疊時難以區(qū)分細微差異,導(dǎo)致漏檢或誤檢。


技術(shù)實現(xiàn)思路

1、本技術(shù)實施例中提供了一種目標檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)。

2、本技術(shù)實施例的第一個方面,提供了一種目標檢測方法,包括:

3、對預(yù)設(shè)視覺自注意力模型、預(yù)設(shè)編碼器、預(yù)設(shè)解碼器和預(yù)設(shè)一對一集合匹配模型進行聯(lián)合訓(xùn)練,得到訓(xùn)練好的視覺自注意力模型、編碼器、解碼器和一對一集合匹配模型;

4、將待檢測圖像、視覺自注意力模型輸出的第一圖像特征、編碼器輸出的第二圖像特征和解碼器輸出的第三圖像特征分別輸入訓(xùn)練好的視覺自注意力模型、編碼器、解碼器和一對一集合匹配模型中,得到待檢測圖像中的目標對象和該目標對象的位置信息,

5、其中,在將待檢測圖像輸入訓(xùn)練好的視覺自注意力模型中,得到視覺自注意力模型輸出的第一圖像特征中,包括:

6、生成與視覺自注意力模型中k矩陣形狀相同的隨機掩碼;

7、將隨機掩碼與k矩陣進行逐元素相加,得到處理后k矩陣;

8、根據(jù)視覺自注意力模型中q矩陣、v矩陣和處理后k矩陣確定從視覺自注意力模型輸出的第一圖像特征。在本技術(shù)一個可選的實施例中,對視覺自注意力模型、編碼器、解碼器和一對一集合匹配模型進行聯(lián)合訓(xùn)練,得到訓(xùn)練好的視覺自注意力模型、編碼器、解碼器和一對一集合匹配模型,包括:

9、將預(yù)設(shè)圖像輸入預(yù)設(shè)視覺自注意力模型中,得到從預(yù)設(shè)視覺自注意力模型輸出的第四圖像特征;

10、將第四圖像特征輸入預(yù)設(shè)編碼器中,得到從編碼器輸出的第五圖像特征;

11、將第五圖像特征輸入預(yù)設(shè)多尺度特征提取模型中,得到輸出的第六圖像特征;

12、將第六圖像特征輸入每個預(yù)設(shè)輔助頭模型中,得到每個預(yù)設(shè)輔助頭模型分別輸出的第七圖像特征;

13、將預(yù)設(shè)多尺度特征提取模型輸出的位置編碼和第七圖像特征輸入預(yù)設(shè)解碼器中,得到從解碼器輸出的第八圖像特征;

14、將第八圖像特征輸入預(yù)設(shè)一對一集合匹配模型中,得到預(yù)設(shè)圖像對目標對象的第一預(yù)測集合;

15、將每個預(yù)設(shè)輔助頭模型分別輸出的第七圖像特征作為第二預(yù)測集合,根據(jù)第一預(yù)測集合、第二預(yù)測集合、第一預(yù)設(shè)實際集合和第二預(yù)設(shè)實際集合構(gòu)建損失函數(shù);

16、按照損失函數(shù)值調(diào)整視覺自注意力模型、編碼器、多尺度特征提取模型、每個輔助頭模型、解碼器和一對一集合匹配模型的參數(shù),得到訓(xùn)練后的視覺自注意力模型、編碼器、多尺度特征提取模型、每個輔助頭模型、解碼器和一對一集合匹配模型。

17、在本技術(shù)一個可選的實施例中,按照損失函數(shù)值調(diào)整視覺自注意力模型、編碼器、多尺度特征提取模型、每個輔助頭模型、解碼器和一對一集合匹配模型的參數(shù),得到訓(xùn)練后的視覺自注意力模型、編碼器、多尺度特征提取模型、每個輔助頭模型、解碼器和一對一集合匹配模型,包括:

18、按照每個輔助頭模型對應(yīng)的第二預(yù)測集合與第二預(yù)設(shè)實際集合構(gòu)建的損失函數(shù)值分別調(diào)整每個輔助頭模型的參數(shù);

19、基于每個輔助頭模型的調(diào)整后參數(shù),按照第一預(yù)測集合與第一預(yù)設(shè)實際集合構(gòu)建的損失函數(shù)值調(diào)整視覺自注意力模型、編碼器、多尺度特征提取模型、解碼器和一對一集合匹配模型的參數(shù);

20、基于視覺自注意力模型、編碼器、多尺度特征提取模型、解碼器和一對一集合匹配模型和每個輔助頭模型的調(diào)整后參數(shù),確定新的第一預(yù)測集合,并確定新的第一預(yù)測集合與第一預(yù)設(shè)實際集合對應(yīng)的新的損失函數(shù)值;

21、在當前訓(xùn)練輪次與前一個訓(xùn)練輪次對應(yīng)的損失函數(shù)值之間的差值小于預(yù)設(shè)誤差的情況下,將視覺自注意力模型、編碼器、多尺度特征提取模型、解碼器和一對一集合匹配模型和每個輔助頭模型的調(diào)整后參數(shù)作為訓(xùn)練好的視覺自注意力模型、編碼器、多尺度特征提取模型、解碼器和一對一集合匹配模型和每個輔助頭模型的參數(shù);

22、在當前訓(xùn)練輪次與前一個訓(xùn)練輪次對應(yīng)的損失函數(shù)值之間的差值大于或等于預(yù)設(shè)誤差的情況下重新執(zhí)行按照每個輔助頭模型對應(yīng)的第二預(yù)測集合與第二預(yù)設(shè)實際集合構(gòu)建的損失函數(shù)值分別調(diào)整每個輔助頭模型的參數(shù)的步驟。

23、在本技術(shù)一個可選的實施例中,將第五圖像特征輸入預(yù)設(shè)多尺度特征提取模型中,得到輸出的第六圖像特征,包括:

24、使用預(yù)設(shè)多尺度特征提取模型的不同尺度的卷積核對第五圖像特征進行采樣,其中,卷積核的大小為h×w,具有c個輸入通道,卷積核為k,卷積核的大小為kh×kw,c′個輸出通道,卷積步長為s,填充大小為p,從預(yù)設(shè)多尺度特征提取模型輸出的第六圖像特征為o,大小為h′×w′,其中,

25、

26、其中,oc′(i,j)為第六圖像特征第c′個通道在位置(i,j)的值,kc′,c(m,n)表示卷積核第c′個輸出通道和第c個輸入通道的(m,n)元素,ic(i·s+m-p,j·s+n-p)表示輸入特征圖第c個通道在卷積操作覆蓋區(qū)域的像素值,bc′是第c′個輸出通道的偏置項,第六圖像特征為o={o1,o2,...,on}。

27、在本技術(shù)一個可選的實施例中,通過以下表達式,將第六圖像特征輸入每個預(yù)設(shè)輔助頭模型中,得到每個預(yù)設(shè)輔助頭模型分別輸出的第七圖像特征:

28、qaux=wq(σ(fcn(flatten(o)))+α·p)+waa

29、其中,qaux為正查詢,o為第六圖像特征,σ為激活函數(shù),flatten為展平函數(shù),fcn為全連接線性函數(shù),α為可學(xué)習(xí)的標量權(quán)重,p為位置編碼,a為輔助信息向量,wq和wa均為可學(xué)習(xí)的向量矩陣。

30、在本技術(shù)一個可選的實施例中,通過以下表達式,將預(yù)設(shè)多尺度特征提取模型輸出的位置編碼和第七圖像特征輸入預(yù)設(shè)解碼器中,得到從解碼器輸出的第八圖像特征:

31、

32、final=layernorm(fcn(attention(pq)+qaux))

33、其中,m為可變形自注意力的采樣點個數(shù),δp為偏移量,pq為查詢位置,psample={pm|m=1,2,...,m}為采樣點集合,為從特征圖獲取的對應(yīng)位置的特征,為從特征圖獲取的對應(yīng)位置的特征,wij為權(quán)重,attention(pq)為查詢位置pq的注意力,為查詢位置pq的正查詢,layernorm為歸一化函數(shù),final為從解碼器輸出的第八圖像特征。

34、本技術(shù)實施例的第二個方面,提供了一種目標檢測裝置,包括:

35、聯(lián)合訓(xùn)練模塊,用于對預(yù)設(shè)視覺自注意力模型、預(yù)設(shè)編碼器、預(yù)設(shè)解碼器和預(yù)設(shè)一對一集合匹配模型進行聯(lián)合訓(xùn)練,得到訓(xùn)練好的視覺自注意力模型、編碼器、解碼器和一對一集合匹配模型;

36、輸入模塊,用于將待檢測圖像、視覺自注意力模型輸出的第一圖像特征、編碼器輸出的第二圖像特征和解碼器輸出的第三圖像特征分別輸入訓(xùn)練好的視覺自注意力模型、編碼器、解碼器和一對一集合匹配模型中,得到待檢測圖像中的目標對象和該目標對象的位置信息,

37、其中,在將待檢測圖像輸入訓(xùn)練好的視覺自注意力模型中,得到視覺自注意力模型輸出的第一圖像特征中,包括:

38、生成與視覺自注意力模型中k矩陣形狀相同的隨機掩碼;

39、將隨機掩碼與k矩陣進行逐元素相加,得到處理后k矩陣;

40、根據(jù)視覺自注意力模型中q矩陣、v矩陣和處理后k矩陣確定從視覺自注意力模型輸出的第一圖像特征。

41、本技術(shù)實施例的第三個方面,提供了一種計算機設(shè)備,包括:包括存儲器和處理器,存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)如上任一項目標檢測方法的步驟。

42、本技術(shù)實施例的第四個方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)如上任一項的目標檢測方法的步驟。

43、本技術(shù)實施例提供的上述技術(shù)方案與現(xiàn)有技術(shù)相比至少具有如下優(yōu)點的部分或全部:

44、本技術(shù)實施例所述的目標檢測方法,對預(yù)設(shè)視覺自注意力模型、預(yù)設(shè)編碼器、預(yù)設(shè)解碼器和預(yù)設(shè)一對一集合匹配模型進行聯(lián)合訓(xùn)練,得到訓(xùn)練好的視覺自注意力模型、編碼器、解碼器和一對一集合匹配模型;將待檢測圖像、視覺自注意力模型輸出的第一圖像特征、編碼器輸出的第二圖像特征和解碼器輸出的第三圖像特征分別輸入訓(xùn)練好的視覺自注意力模型、編碼器、解碼器和一對一集合匹配模型中,得到待檢測圖像中的目標對象和該目標對象的位置信息,其中,在將待檢測圖像輸入訓(xùn)練好的視覺自注意力模型中,得到視覺自注意力模型輸出的第一圖像特征中,包括:生成與視覺自注意力模型中k矩陣形狀相同的隨機掩碼;將隨機掩碼與k矩陣進行逐元素相加,得到處理后k矩陣;根據(jù)視覺自注意力模型中q矩陣、v矩陣和處理后k矩陣確定從視覺自注意力模型輸出的第一圖像特征,在視覺自注意力模型中將隨機掩碼與k矩陣進行逐元素相加,將隨機掩碼與注意力計算融合,提升注意力機制的魯棒性,減少對冗余特征的依賴,從而促進多樣化的特征學(xué)習(xí),提高模型的抗噪聲能力。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1