本公開的實(shí)施例總體上涉及視頻處理技術(shù),并且更具體地,涉及用于視頻編碼的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
背景技術(shù):
1、如今,數(shù)字視頻能力正被應(yīng)用于人們生活的各個方面。針對視頻編碼/解碼,已經(jīng)提出了多種類型的視頻壓縮技術(shù),諸如mpeg-2、mpeg-4、itu-th.263、itu-th.264/mpeg-4第10部分高級視頻編解碼(avc)、itu-th.265高效視頻編解碼(hevc)標(biāo)準(zhǔn)、多功能視頻編解碼(vvc)標(biāo)準(zhǔn)。然而,總體上期望進(jìn)一步提高視頻編解碼技術(shù)的編解碼效率。
技術(shù)實(shí)現(xiàn)思路
1、本公開的實(shí)施例提供了一種用于視頻編解碼的神經(jīng)網(wǎng)絡(luò)架構(gòu)的方案。
2、在第一方面,一種用于視頻處理的方法被提出。該方法包括:獲取用于處理視頻的神經(jīng)網(wǎng)絡(luò)(nn)模型,該nn模型包括至少一個基本塊,其中基本塊包括:多個分支,用于并行處理基本塊的輸入,分支包括至少一個卷積層和至少一個激活層,以及多個層,用于串行處理多個分支的輸出的組合,多個層包括至少一個卷積層和至少一個激活層;以及根據(jù)nn模型,執(zhí)行視頻的當(dāng)前視頻塊與視頻的比特流之間的轉(zhuǎn)換。根據(jù)本公開的第一方面的方法提供了用于視頻編解碼的高效網(wǎng)絡(luò)架構(gòu),該架構(gòu)可以改進(jìn)性能-復(fù)雜度的權(quán)衡。以這種方式,編解碼性能可以進(jìn)一步被提高。
3、在第二方面,一種用于處理視頻數(shù)據(jù)的裝置被提出。該用于處理視頻數(shù)據(jù)的裝置包括處理器和具有指令的非暫態(tài)存儲器,其中該指令在由處理器執(zhí)行時使處理器執(zhí)行根據(jù)第一方面的方法。
4、在第三方面,一種非暫態(tài)計算機(jī)可讀存儲介質(zhì)被提出。該非暫態(tài)計算機(jī)可讀存儲介質(zhì)存儲有指令,該指令使處理器執(zhí)行根據(jù)第一方面的方法。
5、在第四方面,一種非暫態(tài)計算機(jī)可讀記錄介質(zhì)被提出。該非暫態(tài)計算機(jī)可讀記錄介質(zhì)存儲視頻的比特流,該比特流由被視頻處理裝置執(zhí)行的方法生成。該方法包括:獲取用于處理視頻的神經(jīng)網(wǎng)絡(luò)(nn)模型,該nn模型包括至少一個基本塊,其中基本塊包括:多個分支,用于并行處理基本塊的輸入,分支包括至少一個卷積層和至少一個激活層,以及多個層,用于串行處理多個分支的輸出的組合,多個層包括至少一個卷積層和至少一個激活層;以及根據(jù)nn模型,生成視頻的比特流。
6、在第五方面,一種用于存儲視頻的比特流的方法被提出。該方法包括:獲取用于處理視頻的神經(jīng)網(wǎng)絡(luò)(nn)模型,該nn模型包括至少一個基本塊,其中基本塊包括:多個分支,用于并行處理基本塊的輸入,分支包括至少一個卷積層和至少一個激活層,以及多個層,用于串行處理多個分支的輸出的組合,多個層包括至少一個卷積層和至少一個激活層;根據(jù)nn模型,生成視頻的比特流;以及將比特流存儲在非暫態(tài)計算機(jī)可讀記錄介質(zhì)中。
7、本
技術(shù)實(shí)現(xiàn)要素:
被提供以在簡化形式中引入概念的選擇,這將在以下具體實(shí)施方式中被進(jìn)一步描述。本發(fā)明內(nèi)容不旨在標(biāo)識所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在被用于限制所要求保護(hù)的主題的范圍。
1.一種用于視頻處理的方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中在基本塊內(nèi),分支包括接收所述基本塊的所述輸入的單個卷積層和接收所述單個卷積層的輸出的單個激活層。
3.根據(jù)權(quán)利要求1或2所述的方法,其中在基本塊內(nèi),分支的數(shù)目是2;和/或
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其中在基本塊內(nèi),在先前層的輸出被饋送到多個下一層中的情況下,所述多個下一層中的每個下一層的輸入與所述先前層的所述輸出相同。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其中在基本塊內(nèi),在多個先前層的輸出被饋送到下一層中的情況下,所述下一層的輸入是所述多個先前層的所述輸出沿著通道維度的拼接。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法,其中被包括在基本塊中的至少一個激活層被配置為以下至少一項(xiàng):非線性函數(shù)或線性函數(shù);和/或
7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其中被包括在所述多個分支中的至少一個激活層被配置為非線性函數(shù),并且被包括在所述多個層中的至少一個激活層被配置為線性函數(shù);和/或
8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法,其中被包括在基本塊中的卷積層被配置有相同的核尺寸,或者
9.根據(jù)權(quán)利要求8所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,并且所述基本塊的所述多個層包括兩個卷積層;并且
10.根據(jù)權(quán)利要求8所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,并且所述基本塊的所述多個層包括兩個卷積層;并且
11.根據(jù)權(quán)利要求1至10中任一項(xiàng)所述的方法,其中被包括在基本塊中的卷積層中的輸出通道的數(shù)目相同;或者
12.根據(jù)權(quán)利要求1至11中任一項(xiàng)所述的方法,其中被包括在基本塊的所述多個分支中的卷積層被配置有不同的核尺寸并且被配置有不同數(shù)目的輸出通道;并且
13.根據(jù)權(quán)利要求12所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,所述基本塊的所述多個層包括兩個卷積層,并且被包括在所述基本塊的兩個分支中的兩個卷積層的輸入通道的數(shù)目被記作n,
14.根據(jù)權(quán)利要求12所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,所述基本塊的所述多個層包括兩個卷積層,并且被包括在所述基本塊的兩個分支中的兩個卷積層的輸入通道的數(shù)目被記作n,
15.根據(jù)權(quán)利要求12所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,并且所述基本塊的所述多個層包括兩個卷積層,
16.根據(jù)權(quán)利要求12所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,并且所述基本塊的所述多個層包括兩個卷積層,
17.根據(jù)權(quán)利要求1至16中任一項(xiàng)所述的方法,其中與基本塊中的所述多個分支相關(guān)的配置、與基本塊中的所述多個層相關(guān)的配置、與基本塊中的所述激活層相關(guān)的配置和/或與基本塊中的所述卷積層相關(guān)的配置基于以下至少一項(xiàng)而被確定:
18.根據(jù)權(quán)利要求1至17中任一項(xiàng)所述的方法,其中在基本塊內(nèi),
19.根據(jù)權(quán)利要求18所述的方法,其中被包括在所述基本塊的所述多個分支中的所述激活層被配置為以下至少一項(xiàng):參數(shù)化修正線性單元(prelu)、帶泄漏修正線性單元(lrelu)或修正線性單元(relu);和/或
20.根據(jù)權(quán)利要求1至19中任一項(xiàng)所述的方法,其中被包括在所述nn模型中的所述至少一個基本塊包括至少一個第一類型的基本塊和/或至少一個第二類型的基本塊;
21.根據(jù)權(quán)利要求1至20中任一項(xiàng)所述的方法,其中所述nn模型包括頭部部分、骨干部分和尾部部分,
22.根據(jù)權(quán)利要求21所述的方法,其中所述頭部部分、所述骨干部分或所述尾部部分中的至少一個各自包括串聯(lián)連接的第一數(shù)目的所述第一類型的基本塊;或者
23.根據(jù)權(quán)利要求1至22中任一項(xiàng)所述的方法,其中整數(shù)運(yùn)算被應(yīng)用在所述nn模型中;并且
24.一種用于處理視頻數(shù)據(jù)的裝置,包括處理器和其上具有指令的非暫態(tài)存儲器,其中所述指令在由所述處理器執(zhí)行時使所述處理器執(zhí)行根據(jù)權(quán)利要求1至23中任一項(xiàng)所述的方法。
25.一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),存儲指令,所述指令使處理器執(zhí)行根據(jù)權(quán)利要求1至23中任一項(xiàng)所述的方法。
26.一種非暫態(tài)計算機(jī)可讀記錄介質(zhì),存儲視頻的比特流,所述比特流由被視頻處理裝置執(zhí)行的方法生成,其中所述方法包括:
27.一種用于存儲視頻的比特流的方法,包括: