本發(fā)明涉及鳥類識別,尤其涉及一種基于超高清視頻的鳥群識別方法及系統(tǒng)。
背景技術(shù):
1、隨著生態(tài)保護和環(huán)境監(jiān)測需求的日益增長,對自然環(huán)境中鳥類活動的精準(zhǔn)識別與監(jiān)測成為了一個重要的研究方向。特別是在超高清視頻技術(shù)快速發(fā)展的背景下,如何利用超高清視頻數(shù)據(jù)實現(xiàn)高效、準(zhǔn)確的鳥群識別,對于生態(tài)保護、野生動物管理以及環(huán)境監(jiān)測等領(lǐng)域具有重要意義。本發(fā)明涉及一種基于超高清視頻的鳥群識別方法及系統(tǒng),屬于計算機視覺與音頻處理技術(shù)交叉領(lǐng)域,旨在通過結(jié)合視頻與音頻的多模態(tài)信息,提升鳥群識別的準(zhǔn)確性和魯棒性。
2、傳統(tǒng)的鳥群識別方法主要依賴于單一的視頻數(shù)據(jù)或音頻數(shù)據(jù)。基于視頻的識別方法雖然能夠直觀地捕捉鳥類的視覺特征,但在復(fù)雜環(huán)境(如光照變化、遮擋等)下,其識別準(zhǔn)確率會受到顯著影響。而基于音頻的識別方法則能夠捕捉鳥類的叫聲特征,但在存在背景噪聲或多聲源干擾的情況下,其識別效果也會大打折扣。
3、因此,有必要提供一種基于超高清視頻的鳥群識別方法及系統(tǒng)解決上述技術(shù)問題。
技術(shù)實現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供一種基于超高清視頻的鳥群識別方法及系統(tǒng),通過多模態(tài)信息的有效融合和動態(tài)調(diào)整策略,提高鳥群識別的準(zhǔn)確性和魯棒性。
2、本發(fā)明提供了一種基于超高清視頻的鳥群識別方法,所述方法包括以下步驟:
3、同步獲取目標(biāo)區(qū)域的視頻流和音頻流,并基于所述音頻流中提取的頻譜特征動態(tài)調(diào)整所述視頻流的采集參數(shù);
4、對動態(tài)調(diào)整后的所述視頻流進行時空特征提取,輸出鳥類目標(biāo)的空間坐標(biāo)和視覺置信度;
5、對所述音頻流進行時頻特征提取和聲源定位,輸出聲源方位角和聲學(xué)置信度;
6、基于所述空間坐標(biāo)和所述聲源方位角進行空間一致性匹配,當(dāng)兩者空間距離小于預(yù)設(shè)閾值時判定為有效候選區(qū)域;
7、對所述有效候選區(qū)域的視覺置信度和聲學(xué)置信度進行加權(quán)計算,當(dāng)加權(quán)計算得到的融合置信度超過判定閾值時,輸出目標(biāo)區(qū)域存在鳥類的識別結(jié)果。
8、優(yōu)選的,所述同步獲取目標(biāo)區(qū)域的視頻流和音頻流,并基于所述音頻流中提取的頻譜特征動態(tài)調(diào)整所述視頻流的采集參數(shù),包括:
9、提取所述音頻流中預(yù)設(shè)高頻段和預(yù)設(shè)低頻段的能量分布比例;
10、當(dāng)所述高頻段的能量分布比例超過第一閾值時,按照預(yù)設(shè)的比例系數(shù)提升所述視頻流的分辨率和幀率;
11、當(dāng)所述低頻段的能量分布比例超過第二閾值時,按照預(yù)設(shè)的比例系數(shù)降低所述視頻流的分辨率和幀率;
12、若所述高頻段與低頻段的能量分布比例均未超過對應(yīng)閾值,則維持當(dāng)前的采集參數(shù)不變。
13、優(yōu)選的,所述對動態(tài)調(diào)整后的所述視頻流進行時空特征提取,輸出鳥類目標(biāo)的空間坐標(biāo)和視覺置信度,包括:
14、對所述視頻流的相鄰的至少三幀進行時空聯(lián)合建模,提取包含時間運動特征和空間紋理特征的融合特征;
15、基于所述融合特征,通過預(yù)訓(xùn)練的目標(biāo)檢測網(wǎng)絡(luò)生成包含空間坐標(biāo)及初始置信度的候選區(qū)域;
16、對所述候選區(qū)域進行非極大值抑制處理,輸出最終鳥類目標(biāo)的空間坐標(biāo)及對應(yīng)的視覺置信度。
17、優(yōu)選的,所述對所述音頻流進行時頻特征提取和聲源定位,輸出聲源方位角和聲學(xué)置信度,包括:
18、對所述音頻流執(zhí)行短時傅里葉變換,獲取時頻譜圖;
19、在所述時頻譜圖上檢測鳥類叫聲特征,標(biāo)記潛在聲源;
20、通過分析至少兩個麥克風(fēng)接收到的聲音信號的時間差,確定所述潛在聲源的聲源方位角;
21、基于所述時頻譜圖與預(yù)設(shè)的鳥類聲音模板之間的相似度,并結(jié)合所述聲源方位角計算并輸出聲學(xué)置信度。
22、優(yōu)選的,所述基于所述空間坐標(biāo)和所述聲源方位角進行空間一致性匹配,當(dāng)兩者空間距離小于預(yù)設(shè)閾值時判定為有效候選區(qū)域,包括:
23、將所述空間坐標(biāo)映射到視頻畫面的二維平面坐標(biāo)系,并將所述聲源方位角轉(zhuǎn)換為所述二維平面坐標(biāo)系下的投影坐標(biāo);
24、計算所述空間坐標(biāo)與投影坐標(biāo)之間的歐氏距離,當(dāng)所述歐氏距離小于或等于預(yù)設(shè)閾值時判定為空間一致性匹配;
25、對匹配成功的有效候選區(qū)域進行置信度修正,其中:
26、當(dāng)所述歐氏距離小于所述預(yù)設(shè)閾值的50%時,按預(yù)設(shè)的置信度提升比例增強視覺置信度和聲學(xué)置信度;
27、當(dāng)所述歐氏距離處于所述預(yù)設(shè)閾值的50%至100%時,根據(jù)所述歐氏距離與所述預(yù)設(shè)閾值的比例關(guān)系對置信度進行動態(tài)衰減。
28、優(yōu)選的,所述動態(tài)衰減包括:
29、計算所述歐氏距離與預(yù)設(shè)閾值的歸一化比例值,記為衰減系數(shù);
30、對所述有效候選區(qū)域的視覺置信度和聲學(xué)置信度分別進行衰減計算;
31、當(dāng)衰減后的視覺置信度和聲學(xué)置信度均低于預(yù)設(shè)的置信度下限時,剔除所述有效候選區(qū)域。
32、優(yōu)選的,所述對所述有效候選區(qū)域的視覺置信度和聲學(xué)置信度進行加權(quán)計算,當(dāng)加權(quán)計算得到的融合置信度超過判定閾值時,輸出目標(biāo)區(qū)域存在鳥類的識別結(jié)果,包括:
33、基于所述歐氏距離與所述預(yù)設(shè)閾值的比值計算動態(tài)權(quán)重分配系數(shù),其中視覺置信度的權(quán)重系數(shù)與所述比值的倒數(shù)呈線性關(guān)系;
34、將所述動態(tài)權(quán)重分配系數(shù)與置信度修正后的視覺置信度及聲學(xué)置信度進行加權(quán)融合,具體表示為:
35、
36、其中,是融合置信度,是歐氏距離,是預(yù)設(shè)閾值,和分別為修正后的視覺置信度和聲學(xué)置信度;
37、當(dāng)所述融合置信度大于等于判定閾值時,判定所述有效候選區(qū)域存在鳥類目標(biāo),并輸出識別結(jié)果,反之則判定所述有效候選區(qū)域不存在鳥類目標(biāo)。
38、優(yōu)選的,所述判定閾值根據(jù)視頻流的采集參數(shù)動態(tài)調(diào)整,具體包括:
39、通過查表方式從預(yù)先建立的視頻流采集參數(shù)與判定閾值的映射關(guān)系表確定所述判定閾值,其中所述映射關(guān)系表包含不同分辨率、幀率組合對應(yīng)的最優(yōu)判定閾值。
40、本發(fā)明提供了一種基于超高清視頻的鳥群識別系統(tǒng),用于執(zhí)行一種基于超高清視頻的鳥群識別方法,所述系統(tǒng)包括:
41、參數(shù)動態(tài)調(diào)整模塊,用于同步獲取目標(biāo)區(qū)域的視頻流和音頻流,并基于所述音頻流中提取的頻譜特征動態(tài)調(diào)整所述視頻流的采集參數(shù);
42、視頻流處理模塊,用于對動態(tài)調(diào)整后的所述視頻流進行時空特征提取,輸出鳥類目標(biāo)的空間坐標(biāo)和視覺置信度;
43、音頻流處理模塊,用于對所述音頻流進行時頻特征提取和聲源定位,輸出聲源方位角和聲學(xué)置信度;
44、區(qū)域判定模塊,用于基于所述空間坐標(biāo)和所述聲源方位角進行空間一致性匹配,當(dāng)兩者空間距離小于預(yù)設(shè)閾值時判定為有效候選區(qū)域;
45、結(jié)果輸出模塊,用于對所述有效候選區(qū)域的視覺置信度和聲學(xué)置信度進行加權(quán)計算,當(dāng)加權(quán)計算得到的融合置信度超過判定閾值時,輸出目標(biāo)區(qū)域存在鳥類的識別結(jié)果。
46、與相關(guān)技術(shù)相比較,本發(fā)明提供的一種基于超高清視頻的鳥群識別方法及系統(tǒng)具有如下有益效果:
47、本發(fā)明通過同步獲取目標(biāo)區(qū)域的視頻流和音頻流,并基于音頻流中提取的頻譜特征動態(tài)調(diào)整視頻流的采集參數(shù),以適應(yīng)不同環(huán)境條件下的識別需求。同時,結(jié)合視頻流的時空特征提取和音頻流的時頻特征提取與聲源定位,實現(xiàn)空間一致性匹配和置信度加權(quán)計算,最終輸出目標(biāo)區(qū)域存在鳥類的識別結(jié)果。本發(fā)明旨在通過多模態(tài)信息的有效融合和動態(tài)調(diào)整策略,提高鳥群識別的準(zhǔn)確性和魯棒性,同時降低計算復(fù)雜度,滿足實際應(yīng)用需求。