最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

視頻處理方法、裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):41955033發(fā)布日期:2025-05-16 14:21閱讀:5來源:國知局
視頻處理方法、裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)與流程

本公開涉及視頻處理,尤其涉及一種視頻處理方法、裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、在當(dāng)今數(shù)字化信息飛速發(fā)展的時(shí)代,視頻理解技術(shù)的重要性不言而喻。它廣泛應(yīng)用于智能安防、媒體內(nèi)容管理、視頻編輯與創(chuàng)作、視頻推薦系統(tǒng)等諸多領(lǐng)域,為人們從海量視頻數(shù)據(jù)中提取關(guān)鍵信息、實(shí)現(xiàn)智能化交互提供了有力支撐。

2、但是,現(xiàn)有的視頻理解算法,往往側(cè)重于對(duì)視頻畫面信息的挖掘。這種處理模式由于進(jìn)行視頻內(nèi)容理解參考的信息較少,嚴(yán)重限制視頻理解的深度與準(zhǔn)確性,難以滿足當(dāng)下復(fù)雜多變的應(yīng)用需求。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,本公開提供了一種視頻處理方法、裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)。

2、第一方面,本公開提供了一種視頻處理方法,包括:

3、對(duì)原始視頻進(jìn)行音畫分離處理,得到所述原始視頻的音頻信息以及所述原始視頻的圖像;所述原始視頻包括多個(gè)內(nèi)容單元;

4、對(duì)所述原始視頻的音頻信息進(jìn)行語音識(shí)別,得到所述原始視頻的音頻文本;

5、對(duì)所述原始視頻的圖像中的文字提取,得到所述原始視頻的字幕;

6、基于所述原始視頻的圖像、音頻文本以及字幕,得到原始視頻的內(nèi)容描述信息;所述原始視頻的內(nèi)容描述信息包括原始視頻內(nèi)容概述描述信息,以及所述原始視頻各內(nèi)容單元的內(nèi)容描述信息。

7、第二方面,本公開還提供了一種視頻處理裝置,包括:

8、分離模塊,用于對(duì)原始視頻進(jìn)行音畫分離處理,得到所述原始視頻的音頻信息以及所述原始視頻的圖像;所述原始視頻包括多個(gè)內(nèi)容單元;

9、識(shí)別模塊,用于對(duì)所述原始視頻的音頻信息進(jìn)行語音識(shí)別,得到所述原始視頻的音頻文本;

10、提取模塊,用于對(duì)所述原始視頻的圖像中的文字提取,得到所述原始視頻的字幕;

11、輸出模塊,用于基于所述原始視頻的圖像、音頻文本以及字幕,得到原始視頻的內(nèi)容描述信息;所述原始視頻的內(nèi)容描述信息包括原始視頻內(nèi)容概述描述信息,以及所述原始視頻各內(nèi)容單元的內(nèi)容描述信息。

12、第三方面,本公開還提供了一種電子設(shè)備,所述電子設(shè)備包括:

13、一個(gè)或多個(gè)處理器;

14、存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;

15、當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上所述的視頻處理方法。

16、第四方面,本公開還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的視頻處理方法。

17、本公開實(shí)施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn):

18、本公開實(shí)施例提供的技術(shù)方案通過設(shè)置對(duì)原始視頻進(jìn)行音畫分離處理,得到原始視頻的音頻信息以及原始視頻的圖像;原始視頻包括多個(gè)內(nèi)容單元;對(duì)原始視頻的音頻信息進(jìn)行語音識(shí)別,得到原始視頻的音頻文本;對(duì)原始視頻的圖像中的文字提取,得到原始視頻的字幕;基于原始視頻的圖像、音頻文本以及字幕,得到原始視頻的內(nèi)容描述信息;原始視頻的內(nèi)容描述信息包括原始視頻內(nèi)容概述描述信息,以及原始視頻各內(nèi)容單元的內(nèi)容描述信息。其本質(zhì)是在進(jìn)行原始視頻理解時(shí),并不單單基于對(duì)視頻畫面信息的挖掘,而是在視頻畫面信息的基礎(chǔ)上,結(jié)合音頻文本以及字幕,得到視頻內(nèi)容理解結(jié)果,這樣設(shè)置可以提高視頻理解的深度與準(zhǔn)確性。此外,在實(shí)際應(yīng)用中,用戶常常需要定位至視頻內(nèi)特定的內(nèi)容單元,以便開展后續(xù)的查看、編輯、推薦等操作。若僅對(duì)視頻的整體內(nèi)容予以概述,不利于用戶迅速定位到期望查看的內(nèi)容單元。本申請(qǐng)將原始視頻的內(nèi)容描述信息設(shè)置為包括原始視頻內(nèi)容概述描述信息以及原始視頻各內(nèi)容單元的內(nèi)容描述信息,有助于滿足用戶快速定位到視頻的某一內(nèi)容單元的需求。



技術(shù)特征:

1.一種視頻處理方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述原始視頻的圖像、音頻文本以及字幕,得到原始視頻的內(nèi)容描述信息,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述內(nèi)容單元,對(duì)所述原始視頻的圖像、音頻文本以及字幕進(jìn)行切分,得到切分后的圖像幀集合、音頻文本片段以及字幕片段,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述原始視頻,確定所述原始視頻中各個(gè)內(nèi)容單元對(duì)應(yīng)的時(shí)段,包括:

5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述原始視頻,確定所述原始視頻中各個(gè)內(nèi)容單元對(duì)應(yīng)的時(shí)段,包括:

6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述內(nèi)容單元,對(duì)所述原始視頻的圖像、音頻文本以及字幕進(jìn)行切分,得到切分后的圖像幀集合、音頻文本片段以及字幕片段之后,還包括:

7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于各所述數(shù)據(jù)組中的數(shù)據(jù),確定所述原始視頻各內(nèi)容單元的內(nèi)容描述信息以及所述原始視頻內(nèi)容概述描述信息之前,包括:

8.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于各所述數(shù)據(jù)組中的數(shù)據(jù),確定所述原始視頻各內(nèi)容單元的內(nèi)容描述信息以及所述原始視頻內(nèi)容概述描述信息,包括:

9.一種視頻處理裝置,其特征在于,包括:

10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:

11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本公開涉及一種視頻處理方法、裝置、電子設(shè)備以及存儲(chǔ)介質(zhì),方法包括:對(duì)原始視頻進(jìn)行音畫分離處理,得到原始視頻的音頻信息以及原始視頻的圖像;原始視頻包括多個(gè)內(nèi)容單元;對(duì)原始視頻的音頻信息進(jìn)行語音識(shí)別,得到原始視頻的音頻文本;對(duì)原始視頻的圖像中的文字提取,得到原始視頻的字幕;基于原始視頻的圖像、音頻文本以及字幕,得到原始視頻的內(nèi)容描述信息;原始視頻的內(nèi)容描述信息包括原始視頻內(nèi)容概述描述信息,以及原始視頻各內(nèi)容單元的內(nèi)容描述信息。其可以提高視頻理解的深度與準(zhǔn)確性。

技術(shù)研發(fā)人員:楊葉輝,朱家偉
受保護(hù)的技術(shù)使用者:北京懂車族科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1