本申請涉及音頻技術領域,且更具體地,涉及一種音頻信號處理設備、音頻信號處理方法、電子設備、計算機程序產(chǎn)品和計算機可讀存儲介質(zhì)。
背景技術:
無論是智能化的語音識別系統(tǒng)(例如,智能家電、機器人等),還是傳統(tǒng)的語音通信系統(tǒng)(例如,會議系統(tǒng)、因特網(wǎng)協(xié)議傳送話音VoIP系統(tǒng)等),都會遇到噪聲消除的問題。
目前現(xiàn)有的噪聲消除技術是基于全向麥克風陣列和波束形成算法的結合。全向麥克風都具有全向拾音響應,也就是能夠均等地響應來自四面八方的聲音。多個全向麥克風可以配置成陣列,形成定向響應,以做到對于來自單角度的聲源進行增強。
然而,全向麥克風陣列在降噪處理中存在以下局限,即無法對聲源的類型進行區(qū)分,單純地利用空域算法消除噪聲,對一個聲源角度增強,對其余聲源角度進行削弱,容易對關注信號造成損傷。
技術實現(xiàn)要素:
為了解決上述技術問題,提出了本申請。本申請的實施例提供了一種音頻信號處理設備、音頻信號處理方法、電子設備、計算機程序產(chǎn)品和計算機可讀存儲介質(zhì),其可以利用指向麥克風和攝像頭的雙重定位來實現(xiàn)聲源的精確分類。
根據(jù)本申請的一個方面,提供了一種音頻信號處理設備,包括:麥克風陣列,包括具有不同拾音區(qū)的多個指向麥克風,每個指向麥克風用于在自身的拾音區(qū)內(nèi)采集分路輸入信號;音頻定位器件,用于根據(jù)所述分路輸入信號來識別第一組聲源并確定其中的每個聲源在所述麥克風陣列所確定的音頻坐標系下的位置;攝像頭,用于捕捉當前場景的場景圖像,所述當前場景至少覆蓋所述多個指向麥克風的拾音區(qū);圖像定位器件,用于在所述場景圖像中識別第二組聲源并確定其中的每個聲源在所述攝像頭所確定的圖像坐標系下的位置;以及聲源分類器,用于根據(jù)所述音頻坐標系與所述圖像坐標系之間的配準關系、所述第一組聲源中每個聲源在所述音頻坐標系下的位置、和所述第二組聲源中每個聲源在所述圖像坐標系下的位置來對所述第一組聲源和所述第二組聲源中的每個聲源進行分類。
根據(jù)本申請的另一方面,提供了一種音頻信號處理方法,包括:從麥克風陣列中的每個指向麥克風接收分路輸入信號,所述麥克風陣列包括具有不同拾音區(qū)的多個指向麥克風,每個指向麥克風用于在自身的拾音區(qū)內(nèi)采集所述分路輸入信號;根據(jù)所述分路輸入信號來識別第一組聲源并確定其中的每個聲源在所述麥克風陣列所確定的音頻坐標系下的位置;從攝像頭接收當前場景的場景圖像,所述當前場景至少覆蓋所述多個指向麥克風的拾音區(qū);在所述場景圖像中識別第二組聲源并確定其中的每個聲源在所述攝像頭所確定的圖像坐標系下的位置;以及根據(jù)所述音頻坐標系與所述圖像坐標系之間的配準關系、所述第一組聲源中每個聲源在所述音頻坐標系下的位置、和所述第二組聲源中每個聲源在所述圖像坐標系下的位置來對所述第一組聲源和所述第二組聲源中的每個聲源進行分類。
根據(jù)本申請的另一方面,提供了一種電子設備,包括:處理器;存儲器;以及存儲在所述存儲器中的計算機程序指令,所述計算機程序指令在被所述處理器運行時使得所述處理器執(zhí)行上述的音頻信號處理方法。
根據(jù)本申請的另一方面,提供了一種計算機程序產(chǎn)品,包括計算機程序指令,所述計算機程序指令在被處理器運行時使得所述處理器執(zhí)行上述的音頻信號處理方法。
根據(jù)本申請的另一方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,所述計算機程序指令在被處理器運行時使得所述處理器執(zhí)行上述的音頻信號處理方法。
與現(xiàn)有技術相比,采用根據(jù)本申請實施例的音頻信號處理設備、音頻信號處理方法、電子設備、計算機程序產(chǎn)品和計算機可讀存儲介質(zhì),可以根據(jù)麥克風陣列中的每個指向麥克風所采集的分路輸入信號來識別第一組聲源并確定其中的每個聲源在所述麥克風陣列所確定的音頻坐標系下的位置,在攝像頭所采集的場景圖像中識別第二組聲源并確定其中的每個聲源在所述攝像頭所確定的圖像坐標系下的位置,并且根據(jù)所述音頻坐標系與所述圖像坐標系之間的配準關系、所述第一組聲源中每個聲源在所述音頻坐標系下的位置、和所述第二組聲源中每個聲源在所述圖像坐標系下的位置來對所述第一組聲源和所述第二組聲源中的每個聲源進行分類。因此,可以利用指向麥克風和攝像頭的雙重定位來實現(xiàn)聲源的精確分類。
附圖說明
通過結合附圖對本申請實施例進行更詳細的描述,本申請的上述以及其他目的、特征和優(yōu)勢將變得更加明顯。附圖用來提供對本申請實施例的進一步理解,并且構成說明書的一部分,與本申請實施例一起用于解釋本申請,并不構成對本申請的限制。在附圖中,相同的參考標號通常代表相同部件或步驟。
圖1圖示了根據(jù)本申請第一實施例的音頻信號處理設備的結構示意圖。
圖2圖示了根據(jù)本申請實施例的麥克風陣列的結構示意圖。
圖3圖示了根據(jù)本申請實施例的音頻定位器件的結構示意圖。
圖4圖示了根據(jù)本申請實施例的聲源分類器的結構示意圖。
圖5圖示了根據(jù)本申請第二實施例的音頻信號處理設備的結構示意圖。
圖6圖示了根據(jù)本申請實施例的增益控制器件的結構示意圖。
圖7圖示了根據(jù)本申請實施例的麥克風陣列和聲源的示例位置關系示意圖。
圖8圖示了根據(jù)本申請實施例的音頻信號處理方法的流程示意圖。
圖9圖示了根據(jù)本申請實施例的電子設備的框圖。
具體實施方式
下面,將參考附圖詳細地描述根據(jù)本申請的示例實施例。顯然,所描述的實施例僅僅是本申請的一部分實施例,而不是本申請的全部實施例,應理解,本申請不受這里描述的示例實施例的限制。
申請概述
如上所述,傳統(tǒng)的全向麥克風陣列結合波束形成算法的噪聲消除方案無法區(qū)分聲源的類型,單純地利用空域算法進行處理,對一個聲源角度增強,對其余聲源角度進行削弱,容易對關注信號造成損傷。
針對該技術問題,本申請的基本構思是提出一種音頻信號處理設備、音頻信號處理方法、電子設備、計算機程序產(chǎn)品和計算機可讀存儲介質(zhì),其可以利用攝像頭和指向麥克風陣列組成的定位系統(tǒng)對各個聲源進行精準定位,確定聲源的類型是否屬于真實信號源、潛在信號源、噪聲源等,以便后續(xù)根據(jù)聲源的類型來對它們進行標記,并繼而對真實信號源進行增強、對噪聲源進行削弱、對潛在信號源保持以最小能量進行監(jiān)聽等。
在介紹了本申請的基本原理之后,下面將參考附圖來具體介紹本申請的各種非限制性實施例。
示例性音頻信號處理設備
圖1圖示了根據(jù)本申請第一實施例的音頻信號處理設備的結構示意圖。
如圖1所示,根據(jù)本申請實施例的音頻信號處理設備100包括:麥克風陣列110、音頻定位器件120、攝像頭130、圖像定位器件140、和聲源分類器150。
在一個實施例中,麥克風陣列110可以包括具有不同拾音區(qū)的多個指向麥克風,每個指向麥克風用于在自身的拾音區(qū)內(nèi)采集分路輸入信號。
例如,麥克風陣列110是由一定數(shù)目的麥克風組成、用來對聲場的空間特性進行采樣并處理的系統(tǒng)。麥克風的指向性是麥克風對來自空間各個方向聲音靈感度模式的一個描述,是它的一個重要屬性。根據(jù)指向性不同,麥克風可以分為:全向麥克風和指向麥克風。全向麥克風對于來自不同角度的聲音,其靈敏度是基本相同的,其頭部采用壓力感應的原理設計,振膜只接受來自外界的壓力。指向麥克風主要采用壓力梯度的原理設計,通過頭部腔體后面的小孔,振膜接受到正反兩面的壓力,因此振膜受不同方向的壓力并不相同,麥克風具有了指向性。指向麥克風陣列相比于全向麥克風陣列,是利用麥克風本身的特性、而不引入空域算法的形式,其對于語音的損傷更小。
例如,取決于各個麥克風的相對位置關系,麥克風陣列110可以分為:線性陣列,其陣元中心位于同一條直線上;平面陣列,其陣元中心分布在一個平面上;以及空間陣列,其陣元中心分布在立體空間中。
例如,麥克風陣列110可以包括具有不同拾音區(qū)的多個指向麥克風MIC1到MICn,其中n是大于等于2的自然數(shù)。下面,將在一個示例中以平面陣列為例對麥克風陣列進行描述。
圖2圖示了根據(jù)本申請實施例的麥克風陣列的結構示意圖。
如圖2所示,例如,在音頻信號處理設備100上裝備有一平面型的麥克風陣列110,所述麥克風陣列110包括具有同一中心點且呈現(xiàn)中心對稱的8個指向麥克風MIC1到MIC8。所述8個指向麥克風并聯(lián)后用于在自身的拾音區(qū)內(nèi)采集分路輸入信號。
具體地,指向麥克風MIC1到MIC8設置在同一平面,各指向麥克風之間的距離根據(jù)實際需求和所采用的算法設置。相鄰的指向麥克風在二維平面圍繞中心點均勻分布,相互之間呈45°角。如圖2所示,假設MIC1位于音頻信號處理設備100的基準方向,即0°方向,則MIC2位于45°方向,MIC3位于90°方向,MIC4位于135°方向,MIC5位于180°方向,MIC6位于225°方向,MIC7位于270方向,MIC8位于315°方向。
當然,本申請不限于此。在其他實施例中,麥克風陣列也可以是其他平面陣列,也可以是線性陣列或空間立體陣列等。麥克風陣列中的各個指向麥克風可根據(jù)實際需求設置在同一平面或不同平面,可根據(jù)實際需求設置成圍繞中心點均勻分布以獲取盡可能大的采集定位范圍,或設置成非均勻分布以重點對某些方向的聲源進行采集。并且,所述指向麥克風也可以是以單獨、成組等非成對方式設置的。
MIC1到MIC8可以分別具有朝向自己正前方的拾音區(qū),即分別朝向0°方向、45°方向、90°方向、135°方向、180°方向、225°方向、270方向和315°方向的拾音區(qū)。為了避免出現(xiàn)信號的漏檢,相鄰的拾音區(qū)可以具有重疊區(qū)域。MIC1到MIC8中的每個可以在自身的拾音區(qū)內(nèi)采集各自的分路輸入信號。當正在輸出關注信號的信號源處于其拾音區(qū)內(nèi)時,該分路輸入信號包括來自信號源的關注信號分量;當正在輸出噪聲信號的噪聲源處于其拾音區(qū)內(nèi)時,該分路輸入信號包括來自所述噪聲源的噪聲信號分量;當該信號源和該噪聲源同時處于其拾音區(qū)內(nèi)時,該分路輸入信號包括來自信號源的關注信號分量和來自所述噪聲源的噪聲信號分量兩者;當該信號源和該噪聲源均未處于其拾音區(qū)內(nèi)時,該分路輸入信號為零。
在一個實施例中,音頻定位器件120可以用于根據(jù)所述分路輸入信號來識別第一組聲源并確定其中的每個聲源在所述麥克風陣列所確定的音頻坐標系下的位置。
圖3圖示了根據(jù)本申請實施例的音頻定位器件的結構示意圖。
如圖3所示,所述音頻定位器件120可以包括:信號分離單元121,用于從每個指向麥克風所采集的分路輸入信號中分離不同聲源的音頻信號分量并確定所述第一組聲源;以及聲音識別單元122,用于針對所述第一組聲源中的每個聲源,根據(jù)從至少兩路分路輸入信號中分離出的所述聲源的音頻信號分量的相位來確定所述聲源在所述音頻坐標系下的位置。
這里,術語“位置”更加關注聲源相對于所述音頻坐標系的基準方向(例如,圖2中的0°方向)的夾角。
例如,信號分離單元121可以從每路分路輸入信號中分離來自不同聲源的音頻信號分量,從而確定出第一組聲源中包括幾個聲源。
在一個示例中,信號分離單元121可以基于聲源的頻率特性來分離其音頻信號分量。例如,在智能化電子設備(例如,智能家電、機器人等)的語音識別場景下,信號源可以是與電子設備進行交互的用戶,噪聲源可以是周圍的高頻噪聲。由于用戶的語音與高頻噪聲處于不同的頻段,所以信號分離單元121可以在頻域上根據(jù)不同的頻段來對麥克風所采集的分路輸入信號進行劃分,以區(qū)分來自不同聲源的音頻信號分量。
在另一示例中,信號分離單元121也可以基于聲源的內(nèi)容特性來分離其音頻信號分量。例如,噪聲源可以是在當前電子設備中裝備的揚聲器產(chǎn)生的回聲。由于可以已知揚聲器當前正在播放的聲音信號,所以信號分離單元可以在時域和/或頻域上從麥克風所采集的分路輸入信號中分離該聲音信號分量(相當于回聲信號分量)和來自信號源的關注信號分量。
在又一示例中,信號分離單元121也可以基于聲源的發(fā)聲特性來分離其音頻信號分量。例如,信號源也可以是多個正在說話的用戶。由于不同用戶的發(fā)聲規(guī)律、發(fā)聲方式顯著不同,所以信號分離單元121可以基于聲紋識別等算法來實現(xiàn)上述分離操作。
然后,聲音識別單元122可以針對所述第一組聲源中的每個聲源,基于至少兩路分離出來的來自所述聲源的音頻信號分量,利用現(xiàn)有的、或者將來開發(fā)的聲源定位方法來直接得到信號源與麥克風陣列的基準方向(即,0°方向)之間的夾角。
例如,聲源識別單元122可以根據(jù)每個聲源的音頻信號分量到達麥克風陣列中不同麥克風的時間差來計算角度信息,從而確定識別到的該聲源在音頻坐標系中的位置。
需要說明的是,發(fā)出關注信號的信號源并不限于用戶,而也可以是其他任何可能的聲音來源,例如,電視、車輛、動物等;而發(fā)出噪聲信號的噪聲源也不限于上述說明的示例,也可以是其他任何可能的聲音來源。
在一個實施例中,攝像頭130可以用于捕捉當前場景的場景圖像,所述當前場景至少覆蓋所述多個指向麥克風的拾音區(qū)。
例如,該攝像頭130可以用于捕捉當前場景(例如,其至少覆蓋所有指向麥克風的拾音區(qū))的場景圖像,其可以是單獨的攝像頭130或攝像頭130陣列。例如,攝像頭130所采集到的場景圖像可以是單幀圖像、連續(xù)圖像幀序列(即,視頻流)或離散圖像幀序列(即,在預定采樣時間點采樣到的圖像數(shù)據(jù)組)等。例如,該攝像頭130可以是如單目相機、雙目相機、多目相機等,另外,其可以用于捕捉灰度圖,也可以捕捉帶有顏色信息的彩色圖。當然,本領域中已知的以及將來可能出現(xiàn)的任何其他類型的相機都可以應用于本申請,本申請對其捕捉圖像的方式?jīng)]有特別限制,只要能夠獲得輸入圖像的灰度或顏色信息即可。為了減小后續(xù)操作中的計算量,在一個實施例中,可以在進行分析和處理之前,將彩色圖進行灰度化處理。
在一個實施例中,圖像定位器件140可以用于在所述場景圖像中識別第二組聲源并確定其中的每個聲源在所述攝像頭所確定的圖像坐標系下的位置。
這里,術語“位置”可以更加關注聲源相對于所述圖像坐標系的基準方向的夾角,也可以同時關注該聲源相對于圖像坐標系的基準位置的距離。
例如,圖像定位器件140可以不斷分析和處理攝像頭130捕捉的圖像幀,以識別其中的信號源。例如,在智能化電子設備(例如,智能家電、機器人等)的語音識別場景下,信號源可以是與電子設備進行交互的用戶。這時,信號源的識別可以基于人體識別、人臉識別、口部識別等算法來實現(xiàn)。例如,簡單地,可以在識別出在當前場景中存在用戶的情況下,即判斷識別出作為信號源的用戶;更精確地,也可以在識別到在當前場景中存在用戶并且用戶的嘴唇在開合的情況下,判斷識別出作為信號源的用戶。
需要說明的是,發(fā)出關注信號的信號源并不限于用戶,而可以是其他任何可能的聲音來源,例如,電視、車輛、動物等。相應地,信號源的識別算法也可以對應地調(diào)整為電視識別、車輛識別、動物識別等識別算法。
然后,所述圖像定位器件140根據(jù)所述信號源在所述場景圖像中的位置來確定所述信號源與所述攝像頭確定的基準位置之間的相對位置。
例如,圖像定位器件140可以根據(jù)人臉信息鎖定用戶在圖像坐標系下的位置坐標或者角度信息,從而確定識別到的信號源(例如,用戶或用戶口部)在圖像坐標系中的位置。
在一個實施例中,聲源分類器150可以用于根據(jù)所述音頻坐標系與所述圖像坐標系之間的配準關系、所述第一組聲源中每個聲源在所述音頻坐標系下的位置、和所述第二組聲源中每個聲源在所述圖像坐標系下的位置來對所述第一組聲源和所述第二組聲源中的每個聲源進行分類。
圖4圖示了根據(jù)本申請實施例的聲源分類器的結構示意圖。
如圖4所示,所述聲源分類器150可以包括:映射單元151,用于根據(jù)所述音頻坐標系與所述圖像坐標系之間的配準關系來將所述第一組聲源中每個聲源的位置和所述第二組聲源中每個聲源的位置映射到同一坐標系下,所述同一坐標系為所述音頻坐標系和所述圖像坐標系之一;對比單元152,用于對比所述第一組聲源和所述第二組聲源中每個聲源在所述同一坐標系下的相對位置關系;以及分類單元153,用于根據(jù)所述相對位置關系來對所述第一組聲源和所述第二組聲源中的每個聲源進行分類。
例如,映射單元151可以獲取事先校準好的攝像頭130的基準方向與麥克風陣列110的基準方向之間的映射關系。例如,該映射關系由攝像頭的外參矩陣和麥克風陣列的陣列結構共同決定,并且可以通過配置將兩個基準方向統(tǒng)一標定。然后,映射單元151可以將所述第一組聲源和所述第二組聲源中每個聲源的位置統(tǒng)一到同一坐標系下。例如,可以根據(jù)該映射關系,將所述第一組聲源中每個聲源在所述音頻坐標系下的位置轉換到所述圖像坐標系下,或者將所述第二組聲源中每個聲源在所述圖像坐標系下的位置轉換到所述音頻坐標系下。接下來,對比單元152可以將麥克風陣列獲取的角度信息與攝像頭獲取的角度信息進行核對,以便分類單元153根據(jù)核對的結果對所有聲源進行分類。
在一個示例中,所述分類單元153可以執(zhí)行以下操作:響應于位于所述同一坐標系下某一位置處的聲源同時存在于所述第一組聲源和所述第二組聲源中,將所述聲源標記為正在輸出關注信號的真實信號源;以及響應于位于所述同一坐標系下某一位置處的聲源僅僅存在于所述第一組聲源中,將所述聲源標記為正在輸出噪聲信號的噪聲源。進一步地,所述分類單元還可以執(zhí)行以下操作:響應于位于所述同一坐標系下某一位置處的聲源僅僅存在于所述第二組聲源中,將所述聲源標記為當前未輸出音頻信號的潛在信號源。
例如,處于一個位置(角度)的聲源被麥克風陣列和攝像頭同時檢測到的,可以將該聲源分類為正在輸出關注信號的真實信號源;如果攝像頭檢測到、但麥克風陣列沒有檢測到,可以將該聲源分類為尚未輸出關注信號的潛在信號源;如果麥克風陣列檢測到、但攝像頭沒有檢測到,可以將該聲源分類為正在輸出噪聲信號的噪聲源。
由此可見,采用根據(jù)本申請第一實施例的音頻信號處理設備,可以根據(jù)麥克風陣列中的每個指向麥克風所采集的分路輸入信號來識別第一組聲源并確定其中的每個聲源在所述麥克風陣列所確定的音頻坐標系下的位置,在攝像頭所采集的場景圖像中識別第二組聲源并確定其中的每個聲源在所述攝像頭所確定的圖像坐標系下的位置,并且根據(jù)所述音頻坐標系與所述圖像坐標系之間的配準關系、所述第一組聲源中每個聲源在所述音頻坐標系下的位置、和所述第二組聲源中每個聲源在所述圖像坐標系下的位置來對所述第一組聲源和所述第二組聲源中的每個聲源進行分類。因此,可以利用指向麥克風和攝像頭的雙重定位來實現(xiàn)聲源的精確分類。
需要說明的是,盡管上面僅僅描述了對信號源進行音頻和圖像的雙重定位,但是本申請不限于此。例如,在已知噪聲源的外形特征的情況下,同樣也可以對噪聲源進行圖像識別和定位,以用于后續(xù)的分類操作,從而將其進一步劃分為潛在噪聲源和真實噪聲源。
在本申請的第二實施例中,可以進一步利用聲源分類的結果來實現(xiàn)無損的關注信號增強和噪聲信號抑制。
圖5圖示了根據(jù)本申請第二實施例的音頻信號處理設備的結構示意圖。
在圖5中,采用了相同的附圖標記來指示與圖1相同的部件。因此,圖5中的麥克風陣列110、音頻定位器件120、攝像頭130、圖像定位器件140、和聲源分類器150與圖1中相同,并因而,在此省略其詳細描述。圖5與圖1的不同之處在于,該音頻信號處理設備100還包括:復用器160和增益控制器件170。
在一個實施例中,復用器160用于將每個指向麥克風所采集的分路輸入信號合并為總輸入信號,所述分路輸入信號包括來自真實信號源的關注信號分量和來自噪聲源的噪聲信號分量。
例如,該復用器簡單地可以是加法器,用于將各路分路輸入信號在時域上對齊并且疊加為一路總輸入信號。替換地,該復用器也可以是加權加法器,用于通過在疊加的過程中向不同的分路輸入信號施加不同的權重,以使得關注的分路輸入信號在總輸入信號中具有更高的峰值。
在一個實施例中,增益控制器件170用于根據(jù)每個聲源的類型及其在所述音頻坐標系下的位置來調(diào)整每個指向麥克風的增益,以使得在所述總輸入信號中從所述真實信號源接收到的關注信號分量的功率與從所述噪聲源接收到的噪聲信號分量的功率之間的信噪比最大。
圖6圖示了根據(jù)本申請實施例的增益控制器件的結構示意圖。
如圖6所示,所述增益控制器件170可以包括:比較單元171,用于比較所述真實信號源和所述噪聲源與每個指向麥克風的拾音區(qū)之間的位置關系;以及增益調(diào)整單元172,用于根據(jù)所述位置關系來調(diào)整每個指向麥克風的增益,以使得在所述總輸入信號中從所述真實信號源接收到的關注信號分量的功率與從所述噪聲源接收到的噪聲信號分量的功率之間的信噪比最大。
例如,該比較單元171簡單地可以是比較器,在由麥克風陣列110、音頻定位器件120、攝像頭130、圖像定位器件140構成的聲源定位器件檢測到真實信號源與麥克風陣列的基準方向(即,0°方向)之間的夾角和噪聲源與麥克風陣列的基準方向(即,0°方向)之間的夾角之后,確定真實信號源和噪聲源分別位于哪一個或多個指向麥克風的拾音區(qū)內(nèi)。
例如,該增益調(diào)整單元172可以是模擬放大器和數(shù)字放大器中的一個或兩者,用于基于上述位置關系來生成每個指向麥克風的增益因子,并且根據(jù)所述增益因子對每個指向麥克風所采集的分路輸入信號進行放大或縮小,以在增強關注信號功率(例如,來自用戶的語音信號)的同時,抑制噪聲信號功率。例如,該增益調(diào)整單元172可以基于最大信噪比原則、最小可喚醒能量原則、最大能量不失真原則來執(zhí)行增益調(diào)整。該最大信噪比原則是指將真實信號源角度信號增益控制為最大,并且將噪聲源角度信號增益控制為最小。該最小可喚醒能量原則是指將潛在信號源角度信號增益配置為確保一旦該潛在信號源轉換為真實信號源則可以立刻拾取其關注信號的監(jiān)聽狀態(tài),可選地,還可以進一步是指將除了真實信號源角度和噪聲源角度之外的信號增益配置為上述監(jiān)聽狀態(tài),以在功耗和靈敏度之間取得權衡。該最大能量不失真原則是指使得從每個真實信號源角度接收到的信號都不會出現(xiàn)失真。
下面,在幾個具體的場景中描述該增益調(diào)整過程。
在第一場景中,假設存在正在輸出關注信號的一個或多個真實信號源且不存在正在輸出噪聲信號的噪聲源。
這時,該比較單元171可以用于比較所述一個或多個真實信號源與每個指向麥克風的拾音區(qū)之間的第一位置關系。該增益調(diào)整單元172可以用于根據(jù)所述第一位置關系來調(diào)整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個真實信號源接收到的關注信號分量的功率最大。
例如,所述增益調(diào)整單元172可以增大所述一個或多個真實信號源位于其拾音區(qū)的一個或多個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個真實信號源接收到的關注信號分量的功率最大且沒有任何一個關注信號分量發(fā)生失真。
在多個真實信號源的情況下,所述增益調(diào)整單元172可以根據(jù)一個或多個真實信號源在所述圖像坐標系下的位置和來自每個真實信號源的關注信號分量的幅度大小來將所述一個或多個指向麥克風的增益增大為不同值。這樣,可以確保來自所有的真實信號源的關注信號都可以被清晰且均衡地輸入到本設備中。
假設在該第一場景中,還存在當前未輸出關注信號的一個或多個潛在信號源。所述比較單元171比較所述一個或多個潛在信號源與每個指向麥克風的拾音區(qū)之間的第三位置關系,并且所述增益調(diào)整單元172根據(jù)所述第三位置關系來調(diào)整每個指向麥克風的增益,以使得所述麥克風陣列的功耗最小、但又能夠隨時從所述潛在信號源采集音頻信號分量。
例如,所述增益調(diào)整單元172可以簡單地將所述一個或多個潛在信號源位于其拾音區(qū)的一個或多個指向麥克風的增益減小為一個預定值,以滿足最小能量要求Emin,從而在功率節(jié)省和實時檢測之間取得權衡。
替換地,所述增益調(diào)整單元172還可以將所述一個或多個潛在信號源位于其拾音區(qū)的一個或多個指向麥克風的增益設置為估計值,所述估計值是根據(jù)所述一個或多個潛在信號源在所述圖像坐標系下的位置來確定的。例如,在多個潛在信號源的情況下,可以為朝向距離麥克風陣列較遠的潛在信號源的指向麥克風設置為較大的增益,而為朝向距離麥克風陣列較近的潛在信號源的指向麥克風設置為較小的增益。
更進一步地,所述增益調(diào)整單元172還可以減小所述麥克風陣列中除了上述一個或多個指向麥克風的其他麥克風的增益,以降低從潛在噪聲源接收到噪聲分量的可能性。例如,可以將其他麥克風的增益減小為0,即禁用相應麥克風,以減小噪聲輸入并節(jié)省功率。替換地,可以將其他麥克風的增益減小為一個預定值,以滿足最小能量要求Emin,從而在功率節(jié)省和實時檢測之間取得權衡。
在第二場景中,假設不存在正在輸出關注信號的真實信號源且存在正在輸出噪聲信號的一個或多個噪聲源。
這時,該比較單元171可以用于比較所述一個或多個噪聲源與每個指向麥克風的拾音區(qū)之間的第二位置關系。該增益調(diào)整單元172可以用于根據(jù)所述第二位置關系來調(diào)整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個噪聲源接收到的噪聲信號分量的功率最小。
例如,所述增益調(diào)整單元172可以減小所述一個或多個噪聲源位于其拾音區(qū)的一個或多個指向麥克風的增益。例如,可以將所述一個或多個麥克風的增益減小為0,以保證噪聲信號所產(chǎn)生的干擾最小。當然,為了防止在場景中突然出現(xiàn)真實信號源,也可以將所述麥克風的增益減小為一個預定值,例如Emin。
與第一場景中類似地,假設在該第二場景中,還存在當前未輸出關注信號的一個或多個潛在信號源。所述增益調(diào)整單元172可以將所述一個或多個潛在信號源位于其拾音區(qū)的一個或多個指向麥克風的增益減小為一個預定值或估計值。更進一步地,所述增益調(diào)整單元172還可以減小所述麥克風陣列中除了上述一個或多個指向麥克風的其他麥克風的增益,以降低從潛在噪聲源接收到噪聲分量的可能性。
在第三場景中,假設同時存在正在輸出關注信號的一個或多個真實信號源和正在輸出噪聲信號的一個或多個噪聲源。本場景是第一場景與第二場景的結合。
這時,該比較單元171可以用于比較所述一個或多個真實信號源與每個指向麥克風的拾音區(qū)之間的第一位置關系和所述一個或多個噪聲源與每個指向麥克風的拾音區(qū)之間的第二位置關系。該增益調(diào)整單元172用于根據(jù)所述第一位置關系和所述第二位置關系來調(diào)整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個真實信號源接收到的關注信號分量的功率與從所述一個或多個噪聲源接收到的噪聲信號分量的功率之間的信噪比最大。
例如,所述增益調(diào)整單元172可以生成每個指向麥克風的第一組增益,其中,所述一個或多個真實信號源位于其拾音區(qū)的一個或多個指向麥克風的增益被增大,以使得在所述總輸入信號中從所述一個或多個真實信號源接收到的關注信號分量的功率最大。然后,所述增益調(diào)整單元172可以生成每個指向麥克風的第二組增益,其中,所述一個或多個噪聲源位于其拾音區(qū)的一個或多個指向麥克風的增益被減小,以使得在所述總輸入信號中從所述一個或多個噪聲源接收到的噪聲信號分量的功率最小。接下來,所述增益調(diào)整單元172可以生成用于第一組增益的第一組權重和用于第二組增益的第二組權重,以使得在所述總輸入信號中從所述一個或多個真實信號源接收到的關注信號分量的功率與從所述一個或多個噪聲源接收到的噪聲信號分量的功率之間的信噪比最大。最后,所述增益調(diào)整單元172可以使用所述第一組增益、所述第一組權重、所述第二組增益、和所述第二組權重來調(diào)整每個指向麥克風的增益。
與前兩個場景中類似地,假設在該第三場景中,還存在當前未輸出關注信號的一個或多個潛在信號源。所述增益調(diào)整單元172可以將所述一個或多個潛在信號源位于其拾音區(qū)的一個或多個指向麥克風的增益減小為一個預定值或估計值。更進一步地,所述增益調(diào)整單元172還可以減小所述麥克風陣列中除了上述一個或多個指向麥克風的其他麥克風的增益,以降低從潛在噪聲源接收到噪聲分量的可能性。
下面,將參考圖7來在一個具體示例中描述上述不同場景中的該增益調(diào)整過程。
圖7圖示了根據(jù)本申請實施例的麥克風陣列和聲源的示例位置關系示意圖。
如圖7所示,在音頻信號處理設備100中包括麥克風陣列110。所述麥克風陣列110包括具有同一中心點且呈現(xiàn)中心對稱的4個指向麥克風MIC1到MIC4。假設MIC1位于音頻信號處理設備100的基準方向,即0°方向,則MIC2位于90°方向,MIC3位于180°方向,MIC4位于270方向。假設在該應用場景中包括:一個真實信號源(與智能化電子設備進行交互的用戶),位于麥克風陣列的基準方向(即,0°方向)的135°方向;一個噪聲源,位于該基準方向的45°方向;兩個潛在信號源1和2,潛在信號源1位于該基準方向的315°方向且距離較近;潛在信號源2位于該基準方向的225°方向且距離較遠。
例如,攝像頭可以獲取圖像中所有的人臉信息,并根據(jù)人臉信息鎖定用戶在攝像頭的坐標系中的位置坐標(或角度信息)。麥克風陣列通過獲取聲音,通過聲音到達的延遲也可以計算聲音傳輸?shù)慕嵌刃畔?。通過配置將攝像頭的坐標系和麥克風的坐標系相統(tǒng)一,這樣兩個坐標系中的坐標可以相互轉換。攝像頭記錄所有的人臉角度坐標,認為是可能說話的用戶,即可疑信號源。麥克風陣列記錄所有的聲源角度信息,認為是正在發(fā)聲的聲源,并且與攝像頭獲取的角度信息核實。如果兩個器件同時檢測到的角度為真實信號源角度(例如,圖7中的135°);如果攝像頭檢測到、麥克風陣列沒有檢測到的角度為潛在信號源角度(例如,圖7中的225°和315°);如果攝像頭沒有檢測到、麥克風陣列檢測到的角度為噪聲源角度(例如,圖7中的45°)。
一旦判斷出當前場景不存在真實信號源、存在僅僅一個真實信號源、存在多個真實信號源,則可以根據(jù)最大信噪比原則、最小可喚醒能量原則、最大能量不失真原則來對MIC1到MIC4中的每個執(zhí)行增益調(diào)整,將真實信號源角度、潛在信號源角度和噪聲源角度輸入本設備,尋找與這些角度指向最接近的指向麥克風,使得并配置該角度麥克風增益控制。
如圖7所示,在當前場景中僅僅一個真實信號源和一個噪聲源的情況下,只需要配置該真實信號源角度的麥克風增益(例如,圖7中的MIC2和MIC3)和該噪聲源角度的麥克風增益(例如,圖7中的MIC1和MIC2),以使得該真實信號源輸出的關注信號的能量與該噪聲源輸出的噪聲信號的能量之比在設備中最大即可。
此外,如圖7所示,在當前場景中還存在兩個潛在信號源。這時,還可以配置該潛在信號源角度的麥克風增益(例如,圖7中的MIC1、MIC3、和MIC4),確保一旦該潛在信號源開始說話,該角度的聲音可被立刻拾取到。由于潛在信號源1距離麥克風陣列較近,而潛在信號源2距離較遠,所以可以進一步不同地設置MIC1、MIC3、和MIC4的增益,例如,將MIC3的增益設置為較大,將MIC4的增益設置為中等,而將MIC1的增益設置為較小,以更好地檢測距離不同的在潛在信號源的發(fā)聲情況。
接下來,攝像頭和麥克風陣列可以持續(xù)獲取場景圖像和音頻信號,一旦攝像頭檢測到潛在信號源角度人臉有說話嘴型且麥克風陣列檢測到該角度確定有人說話,則開始切換模式,根據(jù)最大信噪比原則、最小可喚醒能量原則、最大能量不失真原則來重新對MIC1到MIC4中的每個執(zhí)行增益調(diào)整。也就是說,可以循環(huán)地執(zhí)行上述過程,即,當聲源變化(例如,數(shù)量改變、位置改變)時,自適應更新多聲源方向向量,通過上述3個準則自適應地更新增益控制向量。另外,上述參數(shù)還可以被存儲起來,以便在稍后相同的場景下被直接讀取出來,而無需再次執(zhí)行增益和向量計算操作,從而加快處理音頻信號的速度。
在一個實施例中,音頻信號處理設備100還可以包括:位置濾波器180,用于根據(jù)聲源分類的結果和每個聲源在所述音頻坐標系下的位置來對增益調(diào)整后的總輸入信號進行濾波,以僅僅保留來自每個真實信號源的音頻信號分量。
在經(jīng)過上述增益調(diào)整之后,可以將各個麥克風采集的、包括已經(jīng)在空域上實現(xiàn)增強的關注信號分量和削弱后的噪聲信號分量的分路輸入信號在通過復用器160合并為一路總輸入信號之后,再一次通過基于位置(角度)濾波的噪聲抑制器件,位置濾波器180。
例如,可以將麥克風陣列和攝像頭兩個定位系統(tǒng)綜合確定的真實信號源角度確定為最后角度篩選器中的角度,該角度外的信號被認為是噪聲。角度篩選器可以通過音頻信號的時延來保留指定角度內(nèi)的關注信號分量,濾除角度外的噪聲信號分量。由于此時噪聲信號分量在總輸入信號中所占比重已經(jīng)較小,再次濾波可以更加徹底地去除不希望的噪聲信號,進一步提高信噪比。
最后,取決于音頻信號處理設備是純近端設備還是近/遠端設備,還可以執(zhí)行對于濾波處理后的信號的音頻識別操作,或?qū)⑺l(fā)送到遠端設備,以用于遠程通信目的。
由此可見,采用根據(jù)本申請第二實施例的音頻信號處理設備,可以在對每個聲音進行分類之后,進一步將每個指向麥克風所采集的分路輸入信號合并為總輸入信號,并且根據(jù)每個聲源的類型及其在所述音頻坐標系下的位置來調(diào)整每個指向麥克風的增益,以使得在所述總輸入信號中從所述真實信號源接收到的關注信號分量的功率與從所述噪聲源接收到的噪聲信號分量的功率之間的信噪比最大。
具體地,本申請的第二實施例具有以下優(yōu)點:
1.可以利用攝像頭和麥克風陣列組成的定位器件對進行精準定位,以將各個聲源分類為真實信號源、潛在信號源、噪聲源等,并且對聲源的變化(如用戶開口說話、用戶走動、用戶的增加減少)都可以實時監(jiān)測;
2.利用指向麥克風陣列可以對多聲源,多角度地進行同時增強;
3.利用指向麥克風陣列配合最大信噪比、最小可喚醒能量、最大聲源角度能量不失真準則來無損地增強語音。
示例性音頻信號處理方法
圖8圖示了根據(jù)本申請實施例的音頻信號處理方法的流程示意圖。
根據(jù)本申請實施例的音頻信號處理方法可以應用于參考圖1到圖7所描述的音頻信號處理設備100。
如圖8所示,所述音頻信號處理方法可以包括:
在步驟S110中,從麥克風陣列中的每個指向麥克風接收分路輸入信號,所述麥克風陣列包括具有不同拾音區(qū)的多個指向麥克風,每個指向麥克風用于在自身的拾音區(qū)內(nèi)采集所述分路輸入信號;
在步驟S120中,根據(jù)所述分路輸入信號來識別第一組聲源并確定其中的每個聲源在所述麥克風陣列所確定的音頻坐標系下的位置;
在步驟S130中,從攝像頭接收當前場景的場景圖像,所述當前場景至少覆蓋所述多個指向麥克風的拾音區(qū);
在步驟S140中,在所述場景圖像中識別第二組聲源并確定其中的每個聲源在所述攝像頭所確定的圖像坐標系下的位置;以及
在步驟S150中,根據(jù)所述音頻坐標系與所述圖像坐標系之間的配準關系、所述第一組聲源中每個聲源在所述音頻坐標系下的位置、和所述第二組聲源中每個聲源在所述圖像坐標系下的位置來對所述第一組聲源和所述第二組聲源中的每個聲源進行分類。
在一個實施例中,該步驟S120可以包括:從每個指向麥克風所采集的分路輸入信號中分離不同聲源的音頻信號分量并確定所述第一組聲源;以及針對所述第一組聲源中的每個聲源,根據(jù)從至少兩路分路輸入信號中分離出的所述聲源的音頻信號分量的相位來確定所述聲源在所述音頻坐標系下的位置。
在一個實施例中,該步驟S150可以包括:根據(jù)所述音頻坐標系與所述圖像坐標系之間的配準關系來將所述第一組聲源中每個聲源的位置和所述第二組聲源中每個聲源的位置映射到同一坐標系下,所述同一坐標系為所述音頻坐標系和所述圖像坐標系之一;比對所述第一組聲源和所述第二組聲源中每個聲源在所述同一坐標系下的相對位置關系;以及根據(jù)所述相對位置關系來對所述第一組聲源和所述第二組聲源中的每個聲源進行分類。
在一個實施例中,根據(jù)所述相對位置關系來對所述第一組聲源和所述第二組聲源中的每個聲源進行分類包括:響應于位于所述同一坐標系下某一位置處的聲源同時存在于所述第一組聲源和所述第二組聲源中,將所述聲源標記為正在輸出關注信號的真實信號源;以及響應于位于所述同一坐標系下某一位置處的聲源僅僅存在于所述第一組聲源中,將所述聲源標記為正在輸出噪聲信號的噪聲源。
在一個實施例中,根據(jù)所述相對位置關系來對所述第一組聲源和所述第二組聲源中的每個聲源進行分類還可以包括:響應于位于所述同一坐標系下某一位置處的聲源僅僅存在于所述第二組聲源中,將所述聲源標記為當前未輸出關注信號的潛在信號源。
在一個實施例中,所述音頻信號處理方法還可以包括:
在步驟S160中,將每個指向麥克風所采集的分路輸入信號合并為總輸入信號,所述分路輸入信號包括來自真實信號源的關注信號分量和來自噪聲源的噪聲信號分量;以及
在步驟S170中,根據(jù)每個聲源的類型及其在所述音頻坐標系下的位置來調(diào)整每個指向麥克風的增益,以使得在所述總輸入信號中從所述真實信號源接收到的關注信號分量的功率與從所述噪聲源接收到的噪聲信號分量的功率之間的信噪比最大。
在一個實施例中,步驟S170可以包括:響應于存在正在輸出關注信號的一個或多個真實信號源且不存在正在輸出噪聲信號的噪聲源,比較所述一個或多個真實信號源與每個指向麥克風的拾音區(qū)之間的第一位置關系;以及根據(jù)所述第一位置關系來調(diào)整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個真實信號源接收到的關注信號分量的功率最大。
在一個實施例中,根據(jù)所述第一位置關系來調(diào)整每個指向麥克風的增益可以包括:增大所述一個或多個真實信號源位于其拾音區(qū)的一個或多個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個真實信號源接收到的關注信號分量的功率最大且沒有任何一個關注信號分量發(fā)生失真。
在一個實施例中,步驟S170可以包括:響應于不存在正在輸出關注信號的真實信號源且存在正在輸出噪聲信號的一個或多個噪聲源,比較所述一個或多個噪聲源與每個指向麥克風的拾音區(qū)之間的第二位置關系;以及根據(jù)所述第二位置關系來調(diào)整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個噪聲源接收到的噪聲信號分量的功率最小。
在一個實施例中,根據(jù)所述第二位置關系來調(diào)整每個指向麥克風的增益可以包括:所述增益調(diào)整單元將所述一個或多個噪聲源位于其拾音區(qū)的一個或多個指向麥克風的增益設置為零。
在一個實施例中,步驟S170可以包括:響應于同時存在正在輸出關注信號的一個或多個真實信號源和正在輸出噪聲信號的一個或多個噪聲源,比較所述一個或多個真實信號源與每個指向麥克風的拾音區(qū)之間的第一位置關系和所述一個或多個噪聲源與每個指向麥克風的拾音區(qū)之間的第二位置關系;以及根據(jù)所述第一位置關系和所述第二位置關系來調(diào)整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個真實信號源接收到的關注信號分量的功率與從所述一個或多個噪聲源接收到的噪聲信號分量的功率之間的信噪比最大。
在一個實施例中,步驟S170還可以包括:響應于還存在當前未輸出關注信號的一個或多個潛在信號源,比較所述一個或多個潛在信號源與每個指向麥克風的拾音區(qū)之間的第三位置關系,并且根據(jù)所述第三位置關系來調(diào)整每個指向麥克風的增益,以使得所述麥克風陣列能夠隨時從所述潛在信號源采集音頻信號分量。
在一個實施例中,根據(jù)所述第三位置關系來調(diào)整每個指向麥克風的增益可以包括:將所述一個或多個潛在信號源位于其拾音區(qū)的一個或多個指向麥克風的增益設置為估計值,所述估計值是根據(jù)所述一個或多個潛在信號源在所述圖像坐標系下的位置來確定的。
在一個實施例中,所述音頻信號處理方法還可以包括:在步驟S180中,根據(jù)聲源分類的結果和每個聲源在所述音頻坐標系下的位置來對增益調(diào)整后的總輸入信號進行濾波,以僅僅保留來自每個真實信號源的音頻信號分量。
上述音頻信號處理方法中的各個步驟的具體功能和操作已經(jīng)在上面參考圖1到圖7描述的音頻信號處理設備100中詳細介紹,并因此,將省略其重復描述。
示例性電子設備
下面,參考圖9來描述根據(jù)本申請實施例的電子設備。該電子設備可以是智能化的語音識別系統(tǒng)(例如,智能家電、機器人等)、傳統(tǒng)的語音通信系統(tǒng)(例如,會議系統(tǒng)、因特網(wǎng)協(xié)議傳送話音VoIP系統(tǒng)等)中的近端設備或遠端設備等。
圖9圖示了根據(jù)本申請實施例的電子設備的框圖。
如圖9所示,電子設備10包括一個或多個處理器11和存儲器12。
處理器11可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其他形式的處理單元,并且可以控制電子設備10中的其他組件以執(zhí)行期望的功能。
存儲器12可以包括一個或多個計算機程序產(chǎn)品,所述計算機程序產(chǎn)品可以包括各種形式的計算機可讀存儲介質(zhì),例如易失性存儲器和/或非易失性存儲器。所述易失性存儲器例如可以包括隨機存取存儲器(RAM)和/或高速緩沖存儲器(cache)等。所述非易失性存儲器例如可以包括只讀存儲器(ROM)、硬盤、閃存等。在所述計算機可讀存儲介質(zhì)上可以存儲一個或多個計算機程序指令,處理器11可以運行所述程序指令,以實現(xiàn)上文所述的本申請的各個實施例的音頻信號處理方法以及/或者其他期望的功能。在所述計算機可讀存儲介質(zhì)中還可以存儲諸如各個聲源的位置和類型、各個麥克風增益等信息。
在一個示例中,電子設備10還可以包括:輸入裝置13和輸出裝置14,這些組件通過總線系統(tǒng)和/或其他形式的連接機構(未示出)互連。
例如,該輸入裝置13可以包括例如鍵盤、鼠標、以及通信網(wǎng)絡及其所連接的遠程輸入設備等等。替換地或附加地,該輸入裝置13也可以是上述的麥克風陣列110,包括具有不同拾音區(qū)的多個指向麥克風,每個指向麥克風用于在自身的拾音區(qū)內(nèi)采集分路輸入信號;或者也可以是上述的攝像頭130,用于捕捉當前場景的場景圖像,所述當前場景至少覆蓋所述多個指向麥克風的拾音區(qū)。
輸出裝置14可以向外部(例如,用戶)輸出各種信息,包括各個聲源的位置和類型、調(diào)整后的每個指向麥克風的增益、噪聲消除后的總輸入信號等。該輸出設備14可以包括例如顯示器、打印機、以及通信網(wǎng)絡及其所連接的遠程輸出設備等等。
當然,為了簡化,圖9中僅示出了該電子設備10中與本申請有關的組件中的一些,省略了諸如總線、輸入/輸出接口等等的組件。應當注意,圖9所示的電子設備10的組件和結構只是示例性的,而非限制性的,根據(jù)需要,電子設備10也可以具有其他組件和結構。
示例性計算機程序產(chǎn)品和計算機可讀存儲介質(zhì)
除了上述方法和設備以外,本申請的實施例還可以是計算機程序產(chǎn)品,其包括計算機程序指令,所述計算機程序指令在被處理器運行時使得所述處理器執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本申請各種實施例的音頻信號處理方法中的步驟。
所述計算機程序產(chǎn)品可以以一種或多種程序設計語言的任意組合來編寫用于執(zhí)行本申請實施例操作的程序代碼,所述程序設計語言包括面向?qū)ο蟮某绦蛟O計語言,諸如Java、C++等,還包括常規(guī)的過程式程序設計語言,諸如“C”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算設備上執(zhí)行、部分地在用戶設備上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算設備上部分在遠程計算設備上執(zhí)行、或者完全在遠程計算設備或服務器上執(zhí)行。
此外,本申請的實施例還可以是計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,所述計算機程序指令在被處理器運行時使得所述處理器執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本申請各種實施例的音頻信號處理方法中的步驟。
所述計算機可讀存儲介質(zhì)可以采用一個或多個可讀介質(zhì)的任意組合??勺x介質(zhì)可以是可讀信號介質(zhì)或者可讀存儲介質(zhì)。可讀存儲介質(zhì)例如可以包括但不限于電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者任意以上的組合??勺x存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPROM或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。
以上結合具體實施例描述了本申請的基本原理,但是,需要指出的是,在本申請中提及的優(yōu)點、優(yōu)勢、效果等僅是示例而非限制,不能認為這些優(yōu)點、優(yōu)勢、效果等是本申請的各個實施例必須具備的。另外,上述公開的具體細節(jié)僅是為了示例的作用和便于理解的作用,而非限制,上述細節(jié)并不限制本申請為必須采用上述具體的細節(jié)來實現(xiàn)。
本申請中涉及的器件、裝置、設備、系統(tǒng)的方框圖僅作為例示性的例子并且不意圖要求或暗示必須按照方框圖示出的方式進行連接、布置、配置。如本領域技術人員將認識到的,可以按任意方式連接、布置、配置這些器件、裝置、設備、系統(tǒng)。諸如“包括”、“包含”、“具有”等等的詞語是開放性詞匯,指“包括但不限于”,且可與其互換使用。這里所使用的詞匯“或”和“和”指詞匯“和/或”,且可與其互換使用,除非上下文明確指示不是如此。這里所使用的詞匯“諸如”指詞組“諸如但不限于”,且可與其互換使用。
還需要指出的是,在本申請的裝置、設備和方法中,各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應視為本申請的等效方案。
提供所公開的方面的以上描述以使本領域的任何技術人員能夠做出或者使用本申請。對這些方面的各種修改對于本領域技術人員而言是非常顯而易見的,并且在此定義的一般原理可以應用于其他方面而不脫離本申請的范圍。因此,本申請不意圖被限制到在此示出的方面,而是按照與在此公開的原理和新穎的特征一致的最寬范圍。
為了例示和描述的目的已經(jīng)給出了以上描述。此外,此描述不意圖將本申請的實施例限制到在此公開的形式。盡管以上已經(jīng)討論了多個示例方面和實施例,但是本領域技術人員將認識到其某些變型、修改、改變、添加和子組合。