本發(fā)明涉及計(jì)算機(jī)視覺,具體涉及基于雙重語義對齊的視頻時(shí)刻檢索和高光檢測方法。
背景技術(shù):
1、視頻時(shí)刻檢索和高光檢測任務(wù)旨在根據(jù)用戶給定的文本查詢從原始視頻中查找出與該文本語義最接近的一段或幾段視頻時(shí)刻,并為每一個(gè)單位視頻片段預(yù)測一個(gè)顯著性分?jǐn)?shù)。然而,手動(dòng)從視頻中查找關(guān)鍵信息并了解視頻中的精彩片段非常耗時(shí)。因此,迫切需要一種自動(dòng)化的視頻時(shí)刻檢索和高光檢測工具,以幫助用戶理解視頻中的關(guān)鍵信息。
2、近年來,該任務(wù)備受眾多研究人員的廣泛關(guān)注與深入探索。徐等人所提出的基于跨模態(tài)動(dòng)態(tài)卷積網(wǎng)絡(luò)的跨模態(tài)視頻時(shí)刻檢索方法,聚焦于視頻時(shí)刻檢索這一核心任務(wù)。盡管其縮放交并比損失已考量交并比的多樣取值,然而在實(shí)際應(yīng)用場景中,面對部分相交的情形,損失值的變化依舊略顯遲緩,不利于實(shí)現(xiàn)時(shí)刻級語義對齊。公開號cn117648463a提出的基于多任務(wù)互惠的聯(lián)合時(shí)刻檢索與高光檢測方法及系統(tǒng)以及公開號cn?117668293a提出的基于多尺度差分的聯(lián)合時(shí)刻檢索與高光檢測方法及系統(tǒng),均致力于攻克視頻時(shí)刻檢索與高光檢測的聯(lián)合任務(wù)難題。但在回歸過程中,僅采用l1損失,當(dāng)損失值較小時(shí),易出現(xiàn)震蕩現(xiàn)象,致使收斂困難,進(jìn)而難以達(dá)成時(shí)刻級語義的精準(zhǔn)對齊;而在高光檢測任務(wù)里,僅用幾個(gè)邊界片段來對模型加以懲罰,難以實(shí)現(xiàn)整個(gè)視頻的片段級語義對齊。
3、雖然現(xiàn)有方法已在一定程度上取得了階段性進(jìn)展,然而,在時(shí)刻級和片段級視頻文本語義對齊方面,仍存在諸多不盡如人意之處。具體來說,在時(shí)刻級語義對齊方面,現(xiàn)有方法過于關(guān)注預(yù)測時(shí)刻和真實(shí)標(biāo)注時(shí)刻完全不相交的情況,而對部分相交的情況不夠敏感,這極大地降低了模型在視頻時(shí)刻檢索方面的性能。然而,在訓(xùn)練階段,有超過90%的預(yù)測時(shí)刻與真實(shí)時(shí)刻存在部分相交的情況,所以這些方法無法實(shí)現(xiàn)準(zhǔn)確的時(shí)刻級語義對齊。在片段級語義對齊方面,現(xiàn)有方法僅選擇少數(shù)幾個(gè)單位片段,比如:在真實(shí)標(biāo)注時(shí)刻內(nèi)的一個(gè)高分片段和一個(gè)低分片段,或者一個(gè)真實(shí)標(biāo)注時(shí)刻范圍內(nèi)的片段和一個(gè)真實(shí)標(biāo)注時(shí)刻范圍外的片段。顯然,這種選擇性策略通常具有很強(qiáng)的隨機(jī)性,而且這些方法無法準(zhǔn)確地對整個(gè)視頻中的所有片段進(jìn)行約束,從而導(dǎo)致高光檢測中的片段級語義對齊不完整,使得模型很容易受到語義相似的其他片段的干擾。
4、總的來說,現(xiàn)有視頻時(shí)刻檢索和高光檢測方法存在著以下缺點(diǎn):1)在回歸中只關(guān)注到預(yù)測時(shí)刻與真實(shí)時(shí)刻完全不相交的情況,卻忽略了部分相交的情況,從而無法實(shí)現(xiàn)時(shí)刻級的語義對齊。2)在顯著性損失中只隨機(jī)選取4個(gè)特殊片段進(jìn)行懲罰判斷,而沒有考慮整個(gè)視頻中所有片段的顯著性,因此無法實(shí)現(xiàn)準(zhǔn)確的片段級語義對齊。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的:本發(fā)明目的在于針對現(xiàn)有技術(shù)的不足,提供一種基于雙重語義對齊的視頻時(shí)刻檢索和高光檢測方法及系統(tǒng),通過顯著性對比學(xué)習(xí)方法和中心距離回歸方法進(jìn)行片段級對齊和時(shí)刻級特征表示,使模型能夠?qū)W習(xí)到更準(zhǔn)確的時(shí)刻級語義信息,通過準(zhǔn)確地預(yù)測顯著性分?jǐn)?shù)進(jìn)行高光檢測以及輸出更準(zhǔn)確的時(shí)刻檢索。
2、技術(shù)方案:本發(fā)明所述基于雙重語義對齊的視頻時(shí)刻檢索和高光檢測方法,包括以下步驟:
3、s1、利用預(yù)訓(xùn)練的視覺編碼器ev和文本編碼器et分別提取視頻中的視覺特征xv和文本查詢中的文本特征xt;
4、s2、將所述視覺特征xv和所述文本特征xt進(jìn)行交叉注意力運(yùn)算,得到聯(lián)合特征x;
5、s3、利用編碼器提取所述聯(lián)合特征x,輸出編碼后的特征f以及用于高光檢測的片段級顯著性表示;利用解碼器對編碼器輸出的特征f進(jìn)行處理,輸出用于視頻時(shí)刻檢索的預(yù)測時(shí)刻表示;
6、s4、通過顯著性分?jǐn)?shù)閾值將特征f劃分為正樣本特征和負(fù)樣本特征,并構(gòu)建顯著性對比學(xué)習(xí)損失函數(shù)實(shí)現(xiàn)片段級語義對齊;
7、s5、計(jì)算解碼器輸出的預(yù)測時(shí)刻與真實(shí)時(shí)刻之間的中心距離dt以感知不同時(shí)刻的位置關(guān)系,利用距離時(shí)間交并比損失實(shí)現(xiàn)時(shí)刻級語義對齊;
8、s6、基于解碼器輸出的預(yù)測時(shí)刻,采用匈牙利算法通過最小化總匹配成本得到預(yù)測時(shí)刻與真實(shí)時(shí)刻之間的最佳對應(yīng)關(guān)系;
9、s7:聯(lián)合優(yōu)化高光檢測損失和時(shí)刻檢索損失以更新編碼器、解碼器參數(shù),并利用更新后的編碼器、解碼器輸出高光檢測結(jié)果和時(shí)刻預(yù)測結(jié)果。
10、進(jìn)一步完善上述技術(shù)方案,所述s1包括:所述視覺編碼器為slowfast和clip,所述文本編碼器為clip;利用視覺編碼器ev對由nv個(gè)片段組成的序列視頻進(jìn)行視覺特征提取,得到視覺特征的為利用文本編碼器et對由nt個(gè)詞元組成的查詢文本進(jìn)行文本特征提取,得到的文本特征為
11、進(jìn)一步地,所述s2包括:
12、將視頻特征xv作為查詢qv,將文本特征xt作為鍵kt和值vt,按照如下公式進(jìn)行交叉注意力運(yùn)算:
13、
14、其中,d是投影后的查詢、鍵和值的維度,通過注意力運(yùn)算得到聯(lián)合特征x。
15、進(jìn)一步地,所述編碼器由6層相同的層堆疊而成,每層均包括多頭自注意力機(jī)制子層和全連接前饋網(wǎng)絡(luò)子層,所述多頭自注意力機(jī)制子層和全連接前饋網(wǎng)絡(luò)子層周圍使用殘差連接和層歸一化;
16、所述解碼器由6層相同的層堆疊而成,每層均包括多頭自注意力機(jī)制子層、掩碼多頭自注意力子層和全連接前饋網(wǎng)絡(luò)子層,所述多頭自注意力機(jī)制子層、掩碼多頭自注意力子層和全連接前饋網(wǎng)絡(luò)子層周圍使用殘差連接和層歸一化。
17、進(jìn)一步地,所述多頭自注意力機(jī)制子層采用如下公式計(jì)算:
18、multihead(q,k,v)=concat(head1,head2,…,headh)wo
19、其中,wo是可學(xué)習(xí)的權(quán)重,concat(·)表示拼接操作,headi表示如下:
20、headi=attention(qwiq,kwik,vwiv)
21、其中,wiq、wik和wiv表示每個(gè)自注意力單元內(nèi)部的可學(xué)習(xí)權(quán)重矩陣;
22、所述掩碼多頭自注意力子層采用如下公式計(jì)算:
23、
24、其中,m是掩碼矩陣;
25、所述全連接前饋網(wǎng)絡(luò)子層采用如下公式計(jì)算:
26、ffn(x)=max(0,xw1+b1)w2+b2
27、其中,x為輸入特征,w1為權(quán)重矩陣、映射輸入特征到隱藏層,w2為權(quán)重矩陣、映射隱藏層輸出到最終輸出,b1為偏置向量、用于調(diào)整xw1的線性變換結(jié)果,b2為偏置向量、用于調(diào)整隱藏層輸出max(0,xw1+b1)的線性變換結(jié)果;
28、所述殘差連接和層歸一化的具體操作流程表示如下:
29、each_sublayer_output=layernorm(x+sublayer(x))
30、其中,sublayer(x)指所述多頭自注意力機(jī)制子層、掩碼多頭自注意力子層和全連接前饋網(wǎng)絡(luò)子層所實(shí)現(xiàn)的函數(shù)。
31、進(jìn)一步地,所述s4包括:
32、s401、根據(jù)顯著性分?jǐn)?shù)閾值s0將特征f劃分為正樣本特征f+和負(fù)樣本特征f-,計(jì)算過程如下:
33、
34、其中,sl是真實(shí)標(biāo)注顯著性分?jǐn)?shù);s0是劃分閾值;
35、s402、計(jì)算正-正特征對和正-負(fù)特征對的余弦相似度,計(jì)算過程如下:
36、
37、其中,cos(·)是余弦相似度,和分別是正-正對和正-負(fù)對的余弦相似度,n+和n-分別是正樣本數(shù)量和負(fù)樣本數(shù)量;
38、構(gòu)建相似度分?jǐn)?shù)集合,計(jì)算過程如下:
39、
40、其中,s+,+和s+,-分別是由正-正和正-負(fù)樣本對的相似度分?jǐn)?shù)組成的集合;
41、s403、基于相似度分?jǐn)?shù)集合計(jì)算每個(gè)元素在顯著性對比學(xué)習(xí)中的權(quán)重,計(jì)算過程如下:
42、
43、其中,和分別是和在s+,+和s+,-集合中的排名,α是控制指數(shù)函數(shù)平滑度的超參數(shù);
44、s404、利用相似度和權(quán)重進(jìn)行對比學(xué)習(xí),使正樣本之間的特征更接近,正樣本和負(fù)樣本之間的特征更遠(yuǎn)離,計(jì)算過程如下:
45、
46、其中,作為指示函數(shù),當(dāng)i≠j時(shí)取1,否則取0;和分別是正-正和正-負(fù)之間的損失值。
47、進(jìn)一步地,所述s5包括:
48、s501、計(jì)算預(yù)測時(shí)刻和真實(shí)時(shí)刻之間的中心距離,過程如下:
49、將預(yù)測時(shí)刻定義為tp=(pb,pe),將真實(shí)時(shí)刻定義為tg=(gb,ge),中心距離dt的計(jì)算過程如下:
50、
51、s502、計(jì)算最小閉包時(shí)刻的長度st:
52、st=max(pe,ge)-min(pb,gb);
53、s503、根據(jù)中心距離和長度計(jì)算用于中心距離回歸的中心距離損失
54、
55、進(jìn)一步地,所述匈牙利算法通過最小化總匹配成本得到預(yù)測時(shí)刻與真實(shí)時(shí)刻之間的最佳對應(yīng)關(guān)系,包括:
56、將表示為n個(gè)預(yù)測時(shí)刻的集合,將表示為n個(gè)真實(shí)時(shí)刻的集合,預(yù)測時(shí)刻與真實(shí)時(shí)刻之間的匹配成本表示為:
57、
58、其中,表示為(ci,ai),ci是表示前景和背景的類別標(biāo)簽,ai∈[0,1]2是用于定義時(shí)刻中心坐標(biāo)和寬度的歸一化向量;a和分別是預(yù)測時(shí)刻和真實(shí)時(shí)刻;表示背景;作為指示函數(shù),當(dāng)成立時(shí)取1;是在排列下預(yù)測的第i個(gè)元素;gt與預(yù)測之間的最佳二分匹配是是時(shí)刻檢索損失。
59、進(jìn)一步地,所述時(shí)刻檢索損失包括交叉熵?fù)p失用于視頻時(shí)刻回歸的l1損失和距離時(shí)間交并比損失表示為:
60、
61、其中,λce和λdtiou是平衡權(quán)重,a和分別是預(yù)測時(shí)刻和真實(shí)時(shí)刻;
62、所述高光檢測損失包括顯著性損失和顯著性對比損失表示為:
63、
64、其中,λsc是顯著性對比損失的權(quán)重,所述表示為:
65、
66、其中,tlow和thigh是真實(shí)時(shí)刻內(nèi)隨機(jī)選取一個(gè)低分?jǐn)?shù)片段和一個(gè)高分?jǐn)?shù)片段;tout和tin是真實(shí)標(biāo)注時(shí)刻外的一個(gè)片段和內(nèi)的一個(gè)片段;δ是設(shè)置為0.2的超參數(shù);s(·)表示顯著性分?jǐn)?shù)值;
67、所述總損失包括時(shí)刻檢索損失和高光檢測損失表示為:
68、
69、其中,λhighlight是高光檢測損失的權(quán)重。
70、用于實(shí)現(xiàn)上述基于雙重語義對齊的視頻時(shí)刻檢索和高光檢測方法的系統(tǒng),包括:
71、特征提取模塊,用于接收視頻和文本查詢,并分別通過預(yù)訓(xùn)練的視覺編碼器和文本編碼器提取視頻中的視覺特征和文本查詢中的文本特征;
72、交叉注意力融合模塊,用于基于視覺特征和文本特征執(zhí)行交叉注意力計(jì)算,實(shí)現(xiàn)視覺特征和文本特征的融合,生成聯(lián)合特征;
73、特征編碼模塊,包括編碼器和解碼器,用于處理聯(lián)合特征,其中:
74、所述編碼器生成用于高光檢測的片段級顯著性特征表示;
75、所述解碼器生成用于視頻時(shí)刻檢索的預(yù)測時(shí)刻表示;
76、片段顯著性對比模塊,用于基于顯著性分?jǐn)?shù)閾值劃分正負(fù)樣本,計(jì)算正負(fù)樣本特征的相似性,通過顯著性對比學(xué)習(xí)實(shí)現(xiàn)片段級語義對齊;
77、時(shí)刻預(yù)測模塊,用于根據(jù)解碼器的時(shí)刻預(yù)測輸出,計(jì)算中心距離和時(shí)間交并比,實(shí)現(xiàn)時(shí)刻級語義對齊;
78、匹配優(yōu)化模塊,用于采用匈牙利算法執(zhí)行預(yù)測時(shí)刻與真實(shí)時(shí)刻的一一匹配,基于最小化匹配成本的方式優(yōu)化匹配結(jié)果;
79、輸出模塊,用于輸出高光檢測結(jié)果和時(shí)刻檢索結(jié)果,所述高光檢測結(jié)果表示每個(gè)視頻片段的重要性顯著性分?jǐn)?shù);所述時(shí)刻檢索結(jié)果表示與文本查詢相關(guān)的起始時(shí)間和結(jié)束時(shí)間。
80、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:
81、(1)針對現(xiàn)有方法過于關(guān)注預(yù)測時(shí)刻和真實(shí)標(biāo)注時(shí)刻完全不相交的情況,無法實(shí)現(xiàn)時(shí)刻級語義對齊的問題,本發(fā)明通過引入預(yù)測時(shí)刻與真實(shí)時(shí)刻之間的中心距離以反映它們的位置關(guān)系,使模型能夠?qū)W習(xí)到更準(zhǔn)確的時(shí)刻級語義信息,從而實(shí)現(xiàn)更準(zhǔn)確的時(shí)刻級語義對齊。與現(xiàn)有方法相比本模型擁有更好的性能。
82、(2)與現(xiàn)有方法在顯著性損失中只隨機(jī)選取4個(gè)特殊片段進(jìn)行懲罰判斷相比,本發(fā)明的顯著性對比學(xué)習(xí)考慮到視頻中的所有片段,將所有片段劃分為正樣本片段和負(fù)樣本片段,其中,正樣本片段對應(yīng)的編碼器輸出被用作正樣本特征,負(fù)樣本片段對應(yīng)的編碼器輸出被用作負(fù)樣本特征,利用對比學(xué)習(xí)的思路來增大正樣本特征與負(fù)樣本特征之間的距離,同時(shí)減小正樣本特征內(nèi)部的距離,這樣一來,模型就能學(xué)習(xí)到具有高、低顯著性分?jǐn)?shù)的片段在特征上的差異,以在特征空間中實(shí)現(xiàn)片段級語義對齊,進(jìn)而準(zhǔn)確地預(yù)測顯著性分?jǐn)?shù)。