最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

語音信號處理方法及裝置、電子設(shè)備、存儲介質(zhì)與流程

文檔序號:41958311發(fā)布日期:2025-05-20 16:52閱讀:5來源:國知局
語音信號處理方法及裝置、電子設(shè)備、存儲介質(zhì)與流程

本公開涉及語音,尤其涉及一種語音信號處理方法及裝置、電子設(shè)備、存儲介質(zhì)。


背景技術(shù):

1、線上會議、線上游戲和虛擬現(xiàn)實(virtual?reality,vr)游戲等場景中均會涉及多人線上通話。通常,每個參與人大多使用耳機(jī)或簡單的揚(yáng)聲器與單傳聲器等較為簡單的音頻硬件進(jìn)行上行與下行通話。這種情況下,對每個收聽者來說,其收聽到其他人的聲音并不能帶來方向感,特別是在其他人同時說話時候聲像還會發(fā)生重疊,導(dǎo)致聽覺疲勞,聽感混亂等,影響溝通效率。


技術(shù)實現(xiàn)思路

1、本公開提供一種語音信號處理方法及裝置、電子設(shè)備、存儲介質(zhì)。

2、根據(jù)本公開實施例的第一方面,提供一種語音信號處理方法,包括:

3、在接收到語音信號的情況下,基于聲學(xué)特征識別所述語音信號中的發(fā)聲對象;

4、響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,將所述不同的發(fā)聲對象的語音進(jìn)行聲像定位后輸出;其中,不同發(fā)聲對象的語音的聲像方位不同。

5、在一些實施例中,所述基于聲學(xué)特征識別所述語音信號中的發(fā)聲對象,包括:

6、基于聲學(xué)特征對所述語音信號進(jìn)行語音分離;

7、響應(yīng)于在所述語音信號中分離出不同的語音,確定所述語音信號中包括不同的發(fā)聲對象。

8、在一些實施例中,所述基于聲學(xué)特征對所述語音信號進(jìn)行語音分離,包括:

9、基于聲學(xué)特征檢測所述語音信號中發(fā)聲對象發(fā)生變化的時刻;

10、基于發(fā)聲對象發(fā)生變化的時刻,將所述語音信號分割成不同的語音片段;

11、提取各語音片段的聲紋,并將不同語音片段的聲紋進(jìn)行比對;

12、將聲紋差異小于預(yù)設(shè)差異閾值的語音片段,確定為所述語音信號中的同一語音;

13、將聲紋差異大于或等于所述預(yù)設(shè)差異閾值的語音片段,確定為所述語音信號中的不同語音。

14、在一些實施例中,各發(fā)聲對象對應(yīng)設(shè)置有方位角,不同發(fā)聲對象的方位角不同;所述響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,將所述不同的發(fā)聲對象的語音進(jìn)行聲像定位后輸出,包括:

15、響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,基于頭相關(guān)傳遞函數(shù)以及各發(fā)聲對象對應(yīng)的方位角將各發(fā)聲對象的語音進(jìn)行聲像定位后輸出。

16、在一些實施例中,所述基于頭相關(guān)傳遞函數(shù)以及各發(fā)聲對象對應(yīng)的方位角將各發(fā)聲對象的語音進(jìn)行聲像定位后輸出,包括:

17、針對每一發(fā)聲對象的語音,將語音轉(zhuǎn)換為頻域信號;

18、基于發(fā)聲對象對應(yīng)的方位角以及所述頭相關(guān)傳遞函數(shù)對頻域信號進(jìn)行渲染,得到渲染后的頻域信號;

19、將渲染后的每一頻域信號轉(zhuǎn)換為時域信號并輸出。

20、在一些實施例中,所述頭相關(guān)傳遞函數(shù)包括不同聲道對應(yīng)的傳遞函數(shù),所述基于發(fā)聲對象對應(yīng)的方位角以及所述頭相關(guān)傳遞函數(shù)對頻域信號進(jìn)行渲染,得到渲染后的頻域信號,包括:

21、基于發(fā)聲對象對應(yīng)的方位角以及各聲道對應(yīng)的傳遞函數(shù)對頻域信號進(jìn)行渲染,得到各聲道渲染后的頻域信號;

22、所述將渲染后的每一頻域信號轉(zhuǎn)換為時域信號并輸出,包括:

23、將每一聲道渲染后的頻域信號轉(zhuǎn)換為時域信號并輸出。

24、在一些實施例中,所述方法還包括:

25、接收對各發(fā)聲對象的方位角的設(shè)置指令;

26、根據(jù)所述設(shè)置指令,設(shè)置各發(fā)聲對象對應(yīng)的方位角。

27、根據(jù)本公開實施例的第二方面,提供一種語音信號處理裝置,所述裝置包括:

28、識別模塊,配置為在接收到語音信號的情況下,基于聲學(xué)特征識別所述語音信號中的發(fā)聲對象;

29、聲像定位模塊,配置為響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,將所述不同的發(fā)聲對象的語音進(jìn)行聲像定位后輸出;其中,不同發(fā)聲對象的語音的聲像方位不同。

30、在一些實施例中,所述識別模塊,還配置為基于聲學(xué)特征對所述語音信號進(jìn)行語音分離;響應(yīng)于在所述語音信號中分離出不同的語音,確定所述語音信號中包括不同的發(fā)聲對象。

31、在一些實施例中,所述識別模塊,還配置為基于聲學(xué)特征檢測所述語音信號中發(fā)聲對象發(fā)生變化的時刻;基于發(fā)聲對象發(fā)生變化的時刻,將所述語音信號分割成不同的語音片段;提取各語音片段的聲紋,并將不同語音片段的聲紋進(jìn)行比對;將聲紋差異小于預(yù)設(shè)差異閾值的語音片段,確定為所述語音信號中的同一語音;將聲紋差異大于或等于所述預(yù)設(shè)差異閾值的語音片段,確定為所述語音信號中的不同語音。

32、在一些實施例中,各發(fā)聲對象對應(yīng)設(shè)置有方位角,不同發(fā)聲對象的方位角不同;所述聲像定位模塊,還配置為響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,基于頭相關(guān)傳遞函數(shù)以及各發(fā)聲對象對應(yīng)的方位角將各發(fā)聲對象的語音進(jìn)行聲像定位后輸出。

33、在一些實施例中,所述聲像定位模塊,還配置為針對每一發(fā)聲對象的語音,將語音轉(zhuǎn)換為頻域信號;基于發(fā)聲對象對應(yīng)的方位角以及所述頭相關(guān)傳遞函數(shù)對頻域信號進(jìn)行渲染,得到渲染后的頻域信號;將渲染后的每一頻域信號轉(zhuǎn)換為時域信號并輸出。

34、在一些實施例中,所述頭相關(guān)傳遞函數(shù)包括不同聲道對應(yīng)的傳遞函數(shù),所述聲像定位模塊,還配置為基于發(fā)聲對象對應(yīng)的方位角以及各聲道對應(yīng)的傳遞函數(shù)對頻域信號進(jìn)行渲染,得到各聲道渲染后的頻域信號;將每一聲道渲染后的頻域信號轉(zhuǎn)換為時域信號并輸出。

35、在一些實施例中,所述裝置還包括:

36、接收模塊,配置為接收對各發(fā)聲對象的方位角的設(shè)置指令;

37、設(shè)置模塊,配置為根據(jù)所述設(shè)置指令,設(shè)置各發(fā)聲對象對應(yīng)的方位角。

38、根據(jù)本公開實施例的第三方面,提供一種電子設(shè)備,所述電子設(shè)備包括:

39、處理器;

40、用于存儲處理器可執(zhí)行指令的存儲器;

41、其中,所述處理器被配置為執(zhí)行如上述第一方面所述的語音信號處理方法。

42、根據(jù)本公開實施例的第四方面,提供一種存儲介質(zhì),包括:

43、當(dāng)所述存儲介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時,使得電子設(shè)備能夠執(zhí)行如上述第一方面中所述的語音信號處理方法。

44、本公開的實施例提供的技術(shù)方案可以包括以下有益效果:

45、在本公開的實施例中,電子設(shè)備基于聲學(xué)特征識別語音信號中的發(fā)聲對象,并對不同發(fā)聲對象的語音進(jìn)行聲像方位不同的定位以提升用戶聽音體驗,而無需依賴于語音軟件對發(fā)聲對象進(jìn)行區(qū)分以進(jìn)行聲像定位,適用于例如無法獲得會議軟件ip從而區(qū)分語音信號來自不同發(fā)聲對象的場景,或接收到同一設(shè)備輸出的包括多個發(fā)聲對象的語音信號的場景,由此可見,本公開實施例的方案適用性更廣,智能性較高。

46、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。



技術(shù)特征:

1.一種語音信號處理方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于聲學(xué)特征識別所述語音信號中的發(fā)聲對象,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于聲學(xué)特征對所述語音信號進(jìn)行語音分離,包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,各發(fā)聲對象對應(yīng)設(shè)置有方位角,不同發(fā)聲對象的方位角不同;所述響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,將所述不同的發(fā)聲對象的語音進(jìn)行聲像定位后輸出,包括:

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于頭相關(guān)傳遞函數(shù)以及各發(fā)聲對象對應(yīng)的方位角將各發(fā)聲對象的語音進(jìn)行聲像定位后輸出,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述頭相關(guān)傳遞函數(shù)包括不同聲道對應(yīng)的傳遞函數(shù),所述基于發(fā)聲對象對應(yīng)的方位角以及所述頭相關(guān)傳遞函數(shù)對頻域信號進(jìn)行渲染,得到渲染后的頻域信號,包括:

7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:

8.一種語音信號處理裝置,其特征在于,所述裝置包括:

9.一種電子設(shè)備,其特征在于,包括:

10.一種非臨時性計算機(jī)可讀存儲介質(zhì),其特征在于,當(dāng)所述存儲介質(zhì)中的指令由電子設(shè)備中的處理器執(zhí)行時,使得電子設(shè)備能夠執(zhí)行如權(quán)利要求1至7中任一項所述的語音信號處理方法。


技術(shù)總結(jié)
本公開是關(guān)于一種語音信號處理方法及裝置、電子設(shè)備、存儲介質(zhì),所述方法包括:在接收到語音信號的情況下,基于聲學(xué)特征識別所述語音信號中的發(fā)聲對象;響應(yīng)于所述語音信號中包括不同的發(fā)聲對象,將所述不同的發(fā)聲對象的語音進(jìn)行聲像定位后輸出;其中,不同發(fā)聲對象的語音的聲像方位不同。通過該方法,無需依賴于語音軟件對發(fā)聲對象進(jìn)行區(qū)分以進(jìn)行聲像定位,方案適用性更廣,智能性較高。

技術(shù)研發(fā)人員:趙晗,宋子平,楊崎,蘇航,王益燕
受保護(hù)的技術(shù)使用者:北京小米移動軟件有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1