本發(fā)明涉及用于針對hoa數(shù)據(jù)幀表示的壓縮而確定表示與所述hoa數(shù)據(jù)幀中的特定數(shù)據(jù)幀的通道信號相關聯(lián)的非差分增益值所需的最小整數(shù)比特數(shù)的方法。
背景技術:
1、表示為hoa的高階高保真度立體聲響復制提供了表示三維聲音的一種可能性。其他技術是波場合成(wfs)或如22.2的基于通道的方法。與基于通道的方法相比,hoa表示提供了與特定揚聲器設置無關的優(yōu)點。然而,這種靈活性是以在特定揚聲器設置上回放hoa表示所需要的解碼過程為代價的。與所需揚聲器的數(shù)量通常很大的wfs方法相比,hoa也可以被呈現(xiàn)為僅包括幾個揚聲器的設置。hoa的另一個優(yōu)點是還可以采用相同的表示而不必對耳機的雙耳渲染進行任何修改。
2、hoa基于通過截斷的球面諧波函數(shù)(sh)展開來表示復合諧波平面波幅度的空間密度。每個展開系數(shù)是角頻率的函數(shù),角頻率可以由時域函數(shù)等效地表示。因此,在不失一般性的情況下,完整的hoa聲場表示實際上可以被假設成由o個時域函數(shù)組成,其中,o表示展開系數(shù)的數(shù)量。這些時域函數(shù)在下文中將被等效地稱為hoa系數(shù)序列或hoa通道。
3、hoa表示的空間解析度隨著展開的最大階數(shù)n的增長而提高。遺憾的是,展開系數(shù)o的數(shù)量隨著階數(shù)n呈二次方增長,特別地,o=(n+1)2。例如,使用階數(shù)n=4的典型hoa表示需要o=25個hoa(展開)系數(shù)。假設期望的單聲道采樣率為fs并且每個采樣的比特數(shù)為nb,則用于傳輸hoa表示的總比特率由o·fs·nb確定。以采用每采樣nb=16比特的fs=48khz采樣率傳輸階數(shù)為n=4的hoa表示,導致19.2mbits/s的比特率,該比特率對于許多實際應用(例如流式傳輸)來說是非常高的。因此,對hoa表示進行壓縮是非??扇〉?。
4、先前,在ep?2665208?a1、ep?2743922?a1、ep?2800401?al中提出了hoa聲場表示的壓縮,參見2014年1月的mpeg-h?3d音頻的iso/iec?jtc1/sc29/wg11、n14264、wd1-hoa文本。這些方法的共同點在于:它們都執(zhí)行聲場分析并且將給定的hoa表示分解成方向分量和殘余環(huán)境分量。一方面,最終壓縮的表示被假設成由若干量化信號組成,這些量化信號由方向信號和基于向量的信號的感知編碼以及環(huán)境hoa分量的相關系數(shù)序列產(chǎn)生。另一方面,最終壓縮的表示包括與量化信號相關的附加邊信息,根據(jù)其壓縮版本重構hoa表示需要所述邊信息。
5、在被傳遞至感知編碼器之前,要求這些中間時域信號具有在[-1,1]的值范圍內(nèi)的最大幅度,這是為實現(xiàn)當前可用的感知編碼器而產(chǎn)生的要求。為了當對hoa表示進行壓縮時滿足該要求,在感知編碼器之前使用平滑地衰減或放大輸入信號的增益控制處理單元(參見ep?2824661?a1和上面提到的iso/iec?jtc1/sc29/wg11?n14264文獻)。所產(chǎn)生的信號修改被假設成是可逆的并且被逐幀地應用,其中特別地,連續(xù)幀之間的信號幅度的變化被假設成“2”的冪。為了便于該信號修改在hoa解壓縮器中的倒置,相應的歸一化邊信息包括在總邊信息中。該歸一化邊信息可以由底數(shù)為“2”的指數(shù)構成,這些指數(shù)描述了兩個連續(xù)幀之間的相對幅度變化。由于連續(xù)幀之間的較小幅度變化比較大幅度變化更有可能發(fā)生,因此根據(jù)上面提到的iso/iec?jtcl/sc29/wg11?n14264文獻利用游程運行長度編碼(runlength?code)對這些指數(shù)進行編碼。
技術實現(xiàn)思路
1、例如,在從開始至結束沒有任何時間跳躍地對單個文件解壓縮的情況下,在hoa解壓縮中使用差分編碼的幅度變化來重構原始信號幅度是可行的。然而,為了便于隨機訪問,獨立的訪問單元必須存在于編碼表示(其通常是比特流)中以使得能夠與來自在先幀的信息無關地從期望的位置(或至少在其附近)開始解壓縮。這種獨立的訪問單元必須包含由增益控制處理單元引起的從第一幀一直到當前幀的總絕對幅度變化(即,非差分增益值)。假設兩個連續(xù)幀之間的幅度變化是“2”的冪,則通過底數(shù)為“2”的指數(shù)來描述總絕對幅度變化就足夠了。為了對該指數(shù)進行高效編碼,在應用增益控制處理單元之前了解信號的可能的最大增益是必要的。然而,該知識高度依賴于對要壓縮的hoa表示的值范圍的約束規(guī)范。遺憾的是,mpeg-h?3d音頻文獻iso/iec?jtc1/sc29/wg11?n14264僅提供用于輸入hoa表示的格式的描述,而沒有對值范圍設定任何約束。
2、本發(fā)明要解決的問題是提供表示非差分增益值所需的最小整數(shù)比特數(shù)。
3、本發(fā)明確立了輸入hoa表示的值范圍與信號在hoa壓縮器中應用增益控制處理單元之前的可能的最大增益之間的相互關系。
4、基于該相互關系,針對輸入hoa表示的值范圍的給定規(guī)范、針對底數(shù)為“2”的指數(shù)的有效編碼來確定所需比特的量,以在訪問單元內(nèi)描述由增益控制處理單元引起的從第一幀一直到當前幀的修改信號的總絕對幅度變化(即,非差分增益值)。
5、此外,一旦計算用于對指數(shù)編碼的所需比特量的規(guī)則被確定,本發(fā)明就使用用于驗證給定hoa表示是否滿足所需值范圍約束的處理,使得給定hoa表示能夠被正確壓縮。
6、原則上,本發(fā)明的方法適合于針對hoa數(shù)據(jù)幀表示的壓縮而確定用于表示所述hoa數(shù)據(jù)幀中的特定hoa數(shù)據(jù)幀的通道信號的非差分增益值所需的最小整數(shù)比特數(shù)βe,其中,每個幀中的每個通道信號包括一組采樣值,并且其中,給所述hoa數(shù)據(jù)幀中的每個hoa數(shù)據(jù)幀的每個通道信號分配差分增益值,并且這樣的差分增益值引起當前hoa數(shù)據(jù)幀中的通道信號的采樣值的幅度相對于前一hoa數(shù)據(jù)幀中的通道信號的采樣值變化,并且其中,這樣的增益調(diào)整的通道信號在編碼器中被編碼,
7、并且其中,所述hoa數(shù)據(jù)幀表示在空間域中被渲染為o個虛擬揚聲器信號wj(t),其中,所述o個虛擬揚聲器的位置位于單位球體上并且與針對βe的計算而假設的位置不匹配,所述渲染通過矩陣乘法w(t)=(ψ)-1·c(t)來表示,其中,w(t)是包含所有虛擬揚聲器信號的向量,ψ是針對虛擬揚聲器位置而計算的模矩陣,并且c(t)是所述hoa數(shù)據(jù)幀表示的相應hoa系數(shù)序列的向量,
8、并且其中,計算最大允許幅度值并且所述hoa數(shù)據(jù)幀表示被歸一化,使得
9、所述方法包括以下步驟:
10、-通過以下子步驟a)、b)、c)中的一個或更多個從所述歸一化hoa數(shù)據(jù)幀表示中形成所述通道信號:
11、a)為了表示所述通道信號中的主要聲音信號,將所述hoa系數(shù)序列c(t)的向量乘以混合矩陣a,混合矩陣a的歐幾里德范數(shù)不大于“1”,其中,混合矩陣a表示所述歸一化hoa數(shù)據(jù)幀表示的系數(shù)序列的線性組合;
12、b)為了表示所述通道信號中的環(huán)境分量camb(t)、從所述歸一化hoa數(shù)據(jù)幀表示中減去所述主要聲音信號以及選擇所述環(huán)境分量camb(t)的系數(shù)序列的至少一部分,其中,||camb(t)||22≤||c(t)||22,以及通過計算對所得到的最小環(huán)境分量camb,min(t)進行變換,其中,并且ψmin是所述最小環(huán)境分量camb,min(t)的模矩陣;
13、c)選擇所述hoa系數(shù)序列c(t)的一部分,其中,所選擇的系數(shù)序列與對其實施空間變換的環(huán)境hoa分量的系數(shù)序列相關,并且描述所選擇的系數(shù)序列的數(shù)量的最小階數(shù)nmin為bmin≤9;
14、-將用于表示所述通道信號的所述非差分增益值所需的所述最小整數(shù)比特數(shù)βe設置為
15、其中,n是階數(shù),o=(n+1)2是hoa系數(shù)序列的數(shù)量,k是所述模矩陣的歐幾里德范數(shù)的平方與o之間的比值,并且其中,nmax,des是感興趣的階數(shù),并且是針對每個階數(shù)的虛擬揚聲器的方向,其中該方向是為了實現(xiàn)對所述hoa數(shù)據(jù)幀表示的所述壓縮而被假定的,使得通過來選擇βe,從而對所述非差分增益值的底數(shù)為“2”的指數(shù)進行編碼,
16、并且其中,對于計算||ψ||2是所述模矩陣ψ的歐幾里德范數(shù),n是階數(shù),nmax是感興趣的最大階數(shù),是所述虛擬揚聲器的方向,o=(n+1)2是hoa系數(shù)序列的數(shù)量,并且k是所述模矩陣的歐幾里德范數(shù)的平方||ψ||22與o之間的比值。