本公開涉及視頻處理,尤其涉及一種視頻處理方法、裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在當(dāng)今數(shù)字化信息飛速發(fā)展的時(shí)代,視頻理解技術(shù)的重要性不言而喻。它廣泛應(yīng)用于智能安防、媒體內(nèi)容管理、視頻編輯與創(chuàng)作、視頻推薦系統(tǒng)等諸多領(lǐng)域,為人們從海量視頻數(shù)據(jù)中提取關(guān)鍵信息、實(shí)現(xiàn)智能化交互提供了有力支撐。
2、但是,現(xiàn)有的視頻理解算法,往往側(cè)重于對(duì)視頻畫面信息的挖掘。這種處理模式由于進(jìn)行視頻內(nèi)容理解參考的信息較少,嚴(yán)重限制視頻理解的深度與準(zhǔn)確性,難以滿足當(dāng)下復(fù)雜多變的應(yīng)用需求。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,本公開提供了一種視頻處理方法、裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)。
2、第一方面,本公開提供了一種視頻處理方法,包括:
3、對(duì)原始視頻進(jìn)行音畫分離處理,得到所述原始視頻的音頻信息以及所述原始視頻的圖像;所述原始視頻包括多個(gè)內(nèi)容單元;
4、對(duì)所述原始視頻的音頻信息進(jìn)行語音識(shí)別,得到所述原始視頻的音頻文本;
5、對(duì)所述原始視頻的圖像中的文字提取,得到所述原始視頻的字幕;
6、基于所述原始視頻的圖像、音頻文本以及字幕,得到原始視頻的內(nèi)容描述信息;所述原始視頻的內(nèi)容描述信息包括原始視頻內(nèi)容概述描述信息,以及所述原始視頻各內(nèi)容單元的內(nèi)容描述信息。
7、第二方面,本公開還提供了一種視頻處理裝置,包括:
8、分離模塊,用于對(duì)原始視頻進(jìn)行音畫分離處理,得到所述原始視頻的音頻信息以及所述原始視頻的圖像;所述原始視頻包括多個(gè)內(nèi)容單元;
9、識(shí)別模塊,用于對(duì)所述原始視頻的音頻信息進(jìn)行語音識(shí)別,得到所述原始視頻的音頻文本;
10、提取模塊,用于對(duì)所述原始視頻的圖像中的文字提取,得到所述原始視頻的字幕;
11、輸出模塊,用于基于所述原始視頻的圖像、音頻文本以及字幕,得到原始視頻的內(nèi)容描述信息;所述原始視頻的內(nèi)容描述信息包括原始視頻內(nèi)容概述描述信息,以及所述原始視頻各內(nèi)容單元的內(nèi)容描述信息。
12、第三方面,本公開還提供了一種電子設(shè)備,所述電子設(shè)備包括:
13、一個(gè)或多個(gè)處理器;
14、存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;
15、當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上所述的視頻處理方法。
16、第四方面,本公開還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的視頻處理方法。
17、本公開實(shí)施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn):
18、本公開實(shí)施例提供的技術(shù)方案通過設(shè)置對(duì)原始視頻進(jìn)行音畫分離處理,得到原始視頻的音頻信息以及原始視頻的圖像;原始視頻包括多個(gè)內(nèi)容單元;對(duì)原始視頻的音頻信息進(jìn)行語音識(shí)別,得到原始視頻的音頻文本;對(duì)原始視頻的圖像中的文字提取,得到原始視頻的字幕;基于原始視頻的圖像、音頻文本以及字幕,得到原始視頻的內(nèi)容描述信息;原始視頻的內(nèi)容描述信息包括原始視頻內(nèi)容概述描述信息,以及原始視頻各內(nèi)容單元的內(nèi)容描述信息。其本質(zhì)是在進(jìn)行原始視頻理解時(shí),并不單單基于對(duì)視頻畫面信息的挖掘,而是在視頻畫面信息的基礎(chǔ)上,結(jié)合音頻文本以及字幕,得到視頻內(nèi)容理解結(jié)果,這樣設(shè)置可以提高視頻理解的深度與準(zhǔn)確性。此外,在實(shí)際應(yīng)用中,用戶常常需要定位至視頻內(nèi)特定的內(nèi)容單元,以便開展后續(xù)的查看、編輯、推薦等操作。若僅對(duì)視頻的整體內(nèi)容予以概述,不利于用戶迅速定位到期望查看的內(nèi)容單元。本申請(qǐng)將原始視頻的內(nèi)容描述信息設(shè)置為包括原始視頻內(nèi)容概述描述信息以及原始視頻各內(nèi)容單元的內(nèi)容描述信息,有助于滿足用戶快速定位到視頻的某一內(nèi)容單元的需求。
1.一種視頻處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述原始視頻的圖像、音頻文本以及字幕,得到原始視頻的內(nèi)容描述信息,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述內(nèi)容單元,對(duì)所述原始視頻的圖像、音頻文本以及字幕進(jìn)行切分,得到切分后的圖像幀集合、音頻文本片段以及字幕片段,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述原始視頻,確定所述原始視頻中各個(gè)內(nèi)容單元對(duì)應(yīng)的時(shí)段,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述原始視頻,確定所述原始視頻中各個(gè)內(nèi)容單元對(duì)應(yīng)的時(shí)段,包括:
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述內(nèi)容單元,對(duì)所述原始視頻的圖像、音頻文本以及字幕進(jìn)行切分,得到切分后的圖像幀集合、音頻文本片段以及字幕片段之后,還包括:
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于各所述數(shù)據(jù)組中的數(shù)據(jù),確定所述原始視頻各內(nèi)容單元的內(nèi)容描述信息以及所述原始視頻內(nèi)容概述描述信息之前,包括:
8.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于各所述數(shù)據(jù)組中的數(shù)據(jù),確定所述原始視頻各內(nèi)容單元的內(nèi)容描述信息以及所述原始視頻內(nèi)容概述描述信息,包括:
9.一種視頻處理裝置,其特征在于,包括:
10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8中任一項(xiàng)所述的方法。