本公開涉及使用多通道音頻格式來表示聲學(xué)場景,且特定來說,涉及表示相同聲學(xué)場景的不同音頻格式之間的轉(zhuǎn)換。
背景技術(shù):
1、一組音頻信號可被處理,且接著通過換能器(例如揚(yáng)聲器)傳輸,目的是為一或多個聆聽者重建期望聆聽體驗。所述一組音頻信號在本文中可稱為“多通道音頻信號”。聆聽體驗在本文中可稱為“音頻場景”,且特定來說,術(shù)語“目標(biāo)音頻場景”指的是期望聆聽體驗(即,多通道音頻信號旨在重建的聆聽體驗)。
2、多通道音頻信號通常將與定義目標(biāo)音頻場景如何與多通道音頻信息相關(guān)的額外信息相關(guān)聯(lián)。此額外信息將包含多通道音頻信號的“格式”的名稱。如所屬領(lǐng)域中已知,典型格式包含通常已知的基于通道的格式:立體聲、5.1、7.1等(統(tǒng)稱為基于通道的音頻(cba))。在這些cba格式的情況下,定義目標(biāo)音頻場景的方法是依據(jù)通過對應(yīng)揚(yáng)聲器傳輸多通道音頻信號的每一通道,其中揚(yáng)聲器在聆聽者周圍的放置由格式定義。典型格式還包含基于對象的音頻(oba)格式,其中目標(biāo)音頻場景依據(jù)多通道音頻信號的每一通道向聆聽者的傳輸來定義,其中通道中的每一者的感知doa由所屬領(lǐng)域中已知的額外元數(shù)據(jù)來定義。oba格式的實例是由美國加利福尼亞州舊金山的杜比實驗室(dolby?laboratories?of?sanfrancisco,california,usa)開發(fā)的dolby
3、多通道信號內(nèi)與隨時間變化的doa相關(guān)聯(lián)的音頻通道可稱為動態(tài)對象,且多通道信號中與不隨時間變化的doa相關(guān)的音頻通道可稱為靜態(tài)對象。通過為原始cba格式的通道中的每一者定義靜態(tài)對象,由cba格式定義的音頻場景可由oba格式表示。
4、典型格式還包含基于場景的音頻(sba)格式,其中多通道信號依據(jù)應(yīng)在聆聽位置附近重建的目標(biāo)聲學(xué)波場來定義目標(biāo)音頻場景。基于場景的格式未規(guī)定應(yīng)產(chǎn)生目標(biāo)聲學(xué)波場的方法。此外,鑒于聲學(xué)波場的復(fù)雜性,多通道音頻信號可能只試圖定義與聲學(xué)波場相關(guān)的信息的子集。一個常見系列的sba格式是ambisonics。一階ambisonics(foa)格式通過提供由4個通道組成的多通道音頻文件來定義目標(biāo)音頻場景,其中4個通道中的每一者定義預(yù)期由定位在目標(biāo)聲學(xué)波場內(nèi)的中心點處的相應(yīng)理想麥克風(fēng)接收的信號,且其中麥克風(fēng)中的每一者根據(jù)特定方向性模式對入射聲音作出響應(yīng)。
5、根據(jù)在ambisonics制作領(lǐng)域中采用的慣例,聲音的入射doa根據(jù)3維坐標(biāo)系來定義,其中x軸指向前方,y軸指向左側(cè),且z軸指向上。在foa格式中,4個麥克風(fēng)方向性模式被選擇為全向模式加3個偶極模式,其中3個偶極模式分別與x、y及z軸對齊。舉例來說,與x軸對齊的理想偶極麥克風(fēng)將捕捉在從由單位向量(x,y,z)定義的方向暴露于入射聲波時增益等于x的入射聲音。理想全向麥克風(fēng)模式可被視為接收增益為1,與聲波的入射方向無關(guān)。
技術(shù)實現(xiàn)思路
1、適于將基于場景的音頻輸入信號轉(zhuǎn)換成基于對象的音頻輸出信號的混合矩陣經(jīng)構(gòu)造使得所得基于對象的音頻信號由具有根據(jù)幅度偏好系數(shù)偏置的幅度的對象信號組成。幅度偏好系數(shù)經(jīng)選擇以將主導(dǎo)空間音頻對象放置于較少數(shù)目的輸出對象通道中,以提供基于場景的音頻輸入信號的更離散的基于對象的渲染。
2、在一些實施例中,一種方法包括:確定定義將音頻對象從基于對象的格式映射成基于場景的格式的線性混合特性的對象映射矩陣;確定所述基于對象的格式的每一音頻對象的成本因子;確定場景映射矩陣作為所述對象映射矩陣的廣義逆,其中所述場景映射矩陣經(jīng)確定以便最小化所述音頻對象的加權(quán)能量的總和,其中每一特定音頻對象的所述加權(quán)能量根據(jù)其相應(yīng)經(jīng)確定成本因子來按比例縮放;及根據(jù)所述場景映射矩陣產(chǎn)生包含作為來自基于場景的輸入信號的音頻信號的混合的音頻對象信號的基于對象的音頻信號。
3、在一些實施例中,所述基于場景的輸入信號是m通道多通道音頻信號,每一成本因子依據(jù)其對應(yīng)音頻對象的幅度偏好而變化,且每一音頻對象的所述幅度偏好從所述矩陣c的元素的加權(quán)和確定,其中c是所述m通道基于場景的輸入信號的m?x?m協(xié)方差,且其中權(quán)重經(jīng)確定以便形成近似基于對象的平移函數(shù)的幅度偏好值。
4、在一些實施例中,所述音頻對象中的每一者與對象位置相關(guān)聯(lián),所述基于場景的輸入信號與主導(dǎo)方向相關(guān)聯(lián),且所述成本因子中的每一者經(jīng)定義為對于具有更接近于所述主導(dǎo)方向的相關(guān)聯(lián)對象位置的音頻對象較低。
5、在一些實施例中,所述音頻對象是具有通過視頻場景分析確定的位置的動態(tài)音頻對象。
6、在一些實施例中,所述方法進(jìn)一步包括:從所述基于場景的輸入信號估計所述主導(dǎo)方向及方向偏差系數(shù),所述方向偏差系數(shù)指示從所述主導(dǎo)方向發(fā)出的基于場景的輸入信號能量的分率。
7、在一些實施例中,每一成本因子依據(jù)其對應(yīng)音頻對象的幅度偏好而變化,且所述幅度偏好依據(jù)所述音頻對象的入射方向、所述主導(dǎo)方向及所述方向偏差系數(shù)而變化。
8、在一些實施例中,當(dāng)所述入射方向更接近于所述主導(dǎo)方向時,所述函數(shù)提供所述幅度偏好的較大值。
9、在一些實施例中,所述基于場景的輸入信號是m通道多通道音頻信號,且所述主導(dǎo)方向vdom是最大化的值的單位向量,其中c是所述m通道基于場景的輸入信號的m?x?m協(xié)方差,且其中“*”運(yùn)算符指示轉(zhuǎn)置。
10、在一些實施例中,所述主導(dǎo)方向由所述協(xié)方差矩陣c的元素形成。
11、在一些實施例中,所述基于場景的輸入信號根據(jù)一階ambisonics平移函數(shù)來定義。
12、在一些實施例中,所述基于場景的輸入信號根據(jù)頻率選擇性濾波過程分裂成兩個或更多個子帶基于場景的信號,其中對于每一子帶,所述相應(yīng)基于場景的子帶信號轉(zhuǎn)換成單獨的基于對象的子帶信號。
1.一種方法,其包括:
2.根據(jù)權(quán)利要求1所述的方法,其中所述基于場景的輸入信號是m通道多通道音頻信號,每一成本因子依據(jù)其對應(yīng)音頻對象的幅度偏好而變化,且每一音頻對象的所述幅度偏好從所述矩陣c的元素的加權(quán)和確定,其中c是所述m通道基于場景的輸入信號的m?x?m協(xié)方差,且其中權(quán)重經(jīng)確定以便形成近似基于對象的平移函數(shù)的幅度偏好值。
3.根據(jù)權(quán)利要求1或2所述的方法,其中所述音頻對象中的每一者與對象位置相關(guān)聯(lián),所述基于場景的輸入信號與主導(dǎo)方向相關(guān)聯(lián),且所述成本因子中的每一者經(jīng)定義為對于具有更接近于所述主導(dǎo)方向的相關(guān)聯(lián)對象位置的音頻對象較低。
4.根據(jù)權(quán)利要求3所述的方法,其進(jìn)一步包括:
5.根據(jù)權(quán)利要求4所述的方法,其中每一成本因子依據(jù)其對應(yīng)音頻對象的幅度偏好而變化,且所述幅度偏好依據(jù)所述音頻對象的入射方向、所述主導(dǎo)方向及所述方向偏差系數(shù)而變化。
6.根據(jù)權(quán)利要求5所述的方法,其中當(dāng)所述入射方向更接近于所述主導(dǎo)方向時,所述函數(shù)提供所述幅度偏好的較大值。
7.根據(jù)權(quán)利要求6所述的方法,其中所述基于場景的輸入信號是m通道多通道音頻信號,且所述主導(dǎo)方向vdom是最大化的值的單位向量,其中c是所述m通道基于場景的輸入信號的m?x?m協(xié)方差,且其中“*”運(yùn)算符指示轉(zhuǎn)置。
8.根據(jù)權(quán)利要求7所述的方法,其中所述主導(dǎo)方向由所述協(xié)方差矩陣c的元素形成。
9.根據(jù)前述權(quán)利要求中任一權(quán)利要求所述的方法,其中所述音頻對象是具有通過視頻場景分析確定的位置的動態(tài)音頻對象。
10.根據(jù)前述權(quán)利要求中任一權(quán)利要求所述的方法,其中所述基于場景的輸入信號根據(jù)一階ambisonics平移函數(shù)來定義。
11.根據(jù)前述權(quán)利要求中任一權(quán)利要求所述的方法,其中所述基于場景的輸入信號根據(jù)頻率選擇性濾波過程分裂成兩個或更多個子帶基于場景的信號,其中對于每一子帶,所述相應(yīng)基于場景的子帶信號轉(zhuǎn)換成單獨的基于對象的子帶信號。
12.一種非暫時性計算機(jī)可讀存儲媒體,其存儲指令,所述指令在由計算設(shè)備執(zhí)行時使所述計算設(shè)備執(zhí)行根據(jù)權(quán)利要求1到11中任一權(quán)利要求所述的方法。
13.一種計算設(shè)備,其包括: