本公開涉及語音,尤其涉及一種語音信號處理方法及裝置、電子設(shè)備、存儲介質(zhì)。
背景技術(shù):
1、線上會議、線上游戲和虛擬現(xiàn)實(virtual?reality,vr)游戲等場景中均會涉及多人線上通話。通常,每個參與人大多使用耳機(jī)或簡單的揚(yáng)聲器與單傳聲器等較為簡單的音頻硬件進(jìn)行上行與下行通話。這種情況下,對每個收聽者來說,其收聽到其他人的聲音并不能帶來方向感,特別是在其他人同時說話時候聲像還會發(fā)生重疊,導(dǎo)致聽覺疲勞,聽感混亂等,影響溝通效率。
技術(shù)實現(xiàn)思路
1、本公開提供一種語音信號處理方法及裝置、電子設(shè)備、存儲介質(zhì)。
2、根據(jù)本公開實施例的第一方面,提供一種語音信號處理方法,包括:
3、在接收到語音信號的情況下,基于聲學(xué)特征識別所述語音信號中的發(fā)聲對象;
4、響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,將所述不同的發(fā)聲對象的語音進(jìn)行聲像定位后輸出;其中,不同發(fā)聲對象的語音的聲像方位不同。
5、在一些實施例中,所述基于聲學(xué)特征識別所述語音信號中的發(fā)聲對象,包括:
6、基于聲學(xué)特征對所述語音信號進(jìn)行語音分離;
7、響應(yīng)于在所述語音信號中分離出不同的語音,確定所述語音信號中包括不同的發(fā)聲對象。
8、在一些實施例中,所述基于聲學(xué)特征對所述語音信號進(jìn)行語音分離,包括:
9、基于聲學(xué)特征檢測所述語音信號中發(fā)聲對象發(fā)生變化的時刻;
10、基于發(fā)聲對象發(fā)生變化的時刻,將所述語音信號分割成不同的語音片段;
11、提取各語音片段的聲紋,并將不同語音片段的聲紋進(jìn)行比對;
12、將聲紋差異小于預(yù)設(shè)差異閾值的語音片段,確定為所述語音信號中的同一語音;
13、將聲紋差異大于或等于所述預(yù)設(shè)差異閾值的語音片段,確定為所述語音信號中的不同語音。
14、在一些實施例中,各發(fā)聲對象對應(yīng)設(shè)置有方位角,不同發(fā)聲對象的方位角不同;所述響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,將所述不同的發(fā)聲對象的語音進(jìn)行聲像定位后輸出,包括:
15、響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,基于頭相關(guān)傳遞函數(shù)以及各發(fā)聲對象對應(yīng)的方位角將各發(fā)聲對象的語音進(jìn)行聲像定位后輸出。
16、在一些實施例中,所述基于頭相關(guān)傳遞函數(shù)以及各發(fā)聲對象對應(yīng)的方位角將各發(fā)聲對象的語音進(jìn)行聲像定位后輸出,包括:
17、針對每一發(fā)聲對象的語音,將語音轉(zhuǎn)換為頻域信號;
18、基于發(fā)聲對象對應(yīng)的方位角以及所述頭相關(guān)傳遞函數(shù)對頻域信號進(jìn)行渲染,得到渲染后的頻域信號;
19、將渲染后的每一頻域信號轉(zhuǎn)換為時域信號并輸出。
20、在一些實施例中,所述頭相關(guān)傳遞函數(shù)包括不同聲道對應(yīng)的傳遞函數(shù),所述基于發(fā)聲對象對應(yīng)的方位角以及所述頭相關(guān)傳遞函數(shù)對頻域信號進(jìn)行渲染,得到渲染后的頻域信號,包括:
21、基于發(fā)聲對象對應(yīng)的方位角以及各聲道對應(yīng)的傳遞函數(shù)對頻域信號進(jìn)行渲染,得到各聲道渲染后的頻域信號;
22、所述將渲染后的每一頻域信號轉(zhuǎn)換為時域信號并輸出,包括:
23、將每一聲道渲染后的頻域信號轉(zhuǎn)換為時域信號并輸出。
24、在一些實施例中,所述方法還包括:
25、接收對各發(fā)聲對象的方位角的設(shè)置指令;
26、根據(jù)所述設(shè)置指令,設(shè)置各發(fā)聲對象對應(yīng)的方位角。
27、根據(jù)本公開實施例的第二方面,提供一種語音信號處理裝置,所述裝置包括:
28、識別模塊,配置為在接收到語音信號的情況下,基于聲學(xué)特征識別所述語音信號中的發(fā)聲對象;
29、聲像定位模塊,配置為響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,將所述不同的發(fā)聲對象的語音進(jìn)行聲像定位后輸出;其中,不同發(fā)聲對象的語音的聲像方位不同。
30、在一些實施例中,所述識別模塊,還配置為基于聲學(xué)特征對所述語音信號進(jìn)行語音分離;響應(yīng)于在所述語音信號中分離出不同的語音,確定所述語音信號中包括不同的發(fā)聲對象。
31、在一些實施例中,所述識別模塊,還配置為基于聲學(xué)特征檢測所述語音信號中發(fā)聲對象發(fā)生變化的時刻;基于發(fā)聲對象發(fā)生變化的時刻,將所述語音信號分割成不同的語音片段;提取各語音片段的聲紋,并將不同語音片段的聲紋進(jìn)行比對;將聲紋差異小于預(yù)設(shè)差異閾值的語音片段,確定為所述語音信號中的同一語音;將聲紋差異大于或等于所述預(yù)設(shè)差異閾值的語音片段,確定為所述語音信號中的不同語音。
32、在一些實施例中,各發(fā)聲對象對應(yīng)設(shè)置有方位角,不同發(fā)聲對象的方位角不同;所述聲像定位模塊,還配置為響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,基于頭相關(guān)傳遞函數(shù)以及各發(fā)聲對象對應(yīng)的方位角將各發(fā)聲對象的語音進(jìn)行聲像定位后輸出。
33、在一些實施例中,所述聲像定位模塊,還配置為針對每一發(fā)聲對象的語音,將語音轉(zhuǎn)換為頻域信號;基于發(fā)聲對象對應(yīng)的方位角以及所述頭相關(guān)傳遞函數(shù)對頻域信號進(jìn)行渲染,得到渲染后的頻域信號;將渲染后的每一頻域信號轉(zhuǎn)換為時域信號并輸出。
34、在一些實施例中,所述頭相關(guān)傳遞函數(shù)包括不同聲道對應(yīng)的傳遞函數(shù),所述聲像定位模塊,還配置為基于發(fā)聲對象對應(yīng)的方位角以及各聲道對應(yīng)的傳遞函數(shù)對頻域信號進(jìn)行渲染,得到各聲道渲染后的頻域信號;將每一聲道渲染后的頻域信號轉(zhuǎn)換為時域信號并輸出。
35、在一些實施例中,所述裝置還包括:
36、接收模塊,配置為接收對各發(fā)聲對象的方位角的設(shè)置指令;
37、設(shè)置模塊,配置為根據(jù)所述設(shè)置指令,設(shè)置各發(fā)聲對象對應(yīng)的方位角。
38、根據(jù)本公開實施例的第三方面,提供一種電子設(shè)備,所述電子設(shè)備包括:
39、處理器;
40、用于存儲處理器可執(zhí)行指令的存儲器;
41、其中,所述處理器被配置為執(zhí)行如上述第一方面所述的語音信號處理方法。
42、根據(jù)本公開實施例的第四方面,提供一種存儲介質(zhì),包括:
43、當(dāng)所述存儲介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時,使得電子設(shè)備能夠執(zhí)行如上述第一方面中所述的語音信號處理方法。
44、本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
45、在本公開的實施例中,電子設(shè)備基于聲學(xué)特征識別語音信號中的發(fā)聲對象,并對不同發(fā)聲對象的語音進(jìn)行聲像方位不同的定位以提升用戶聽音體驗,而無需依賴于語音軟件對發(fā)聲對象進(jìn)行區(qū)分以進(jìn)行聲像定位,適用于例如無法獲得會議軟件ip從而區(qū)分語音信號來自不同發(fā)聲對象的場景,或接收到同一設(shè)備輸出的包括多個發(fā)聲對象的語音信號的場景,由此可見,本公開實施例的方案適用性更廣,智能性較高。
46、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種語音信號處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于聲學(xué)特征識別所述語音信號中的發(fā)聲對象,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于聲學(xué)特征對所述語音信號進(jìn)行語音分離,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,各發(fā)聲對象對應(yīng)設(shè)置有方位角,不同發(fā)聲對象的方位角不同;所述響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,將所述不同的發(fā)聲對象的語音進(jìn)行聲像定位后輸出,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于頭相關(guān)傳遞函數(shù)以及各發(fā)聲對象對應(yīng)的方位角將各發(fā)聲對象的語音進(jìn)行聲像定位后輸出,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述頭相關(guān)傳遞函數(shù)包括不同聲道對應(yīng)的傳遞函數(shù),所述基于發(fā)聲對象對應(yīng)的方位角以及所述頭相關(guān)傳遞函數(shù)對頻域信號進(jìn)行渲染,得到渲染后的頻域信號,包括:
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
8.一種語音信號處理裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種非臨時性計算機(jī)可讀存儲介質(zhì),其特征在于,當(dāng)所述存儲介質(zhì)中的指令由電子設(shè)備中的處理器執(zhí)行時,使得電子設(shè)備能夠執(zhí)行如權(quán)利要求1至7中任一項所述的語音信號處理方法。