最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

哭聲分類預測方法、裝置、電子設備及存儲介質(zhì)與流程

文檔序號:41947734發(fā)布日期:2025-05-16 14:05閱讀:8來源:國知局
哭聲分類預測方法、裝置、電子設備及存儲介質(zhì)與流程

本發(fā)明涉及人工智能,具體涉及一種哭聲分類預測方法、裝置、電子設備及存儲介質(zhì)。


背景技術(shù):

1、哭泣是嬰兒最主要的信息傳遞手段,能反映出嬰兒當前的生理與心理需求。對于照顧嬰兒的人而言,若能聽懂嬰兒哭泣的原因就能有效地采取應對措施滿足嬰兒的需求。目前業(yè)界對嬰兒哭泣數(shù)據(jù)的主流處理方式通常僅基于音頻數(shù)據(jù),使用音頻預處理特征與深度神經(jīng)網(wǎng)絡來實現(xiàn)對哭聲的檢測或分類,這種方式在嬰兒哭泣檢測任務中能取得較好的表現(xiàn),但是在嬰兒哭泣分類任務中的表現(xiàn)則難以令人滿意。

2、在現(xiàn)有技術(shù)下,使用單一數(shù)據(jù)來源的單模態(tài)方法是比較片面的,難以提供多個角度的預測,導致哭聲分類預測的準確度低下;并且,多模態(tài)方法可能需要組合使用多個神經(jīng)網(wǎng)絡來實現(xiàn),其計算難度也會相應地增加,導致哭聲分類預測的效率低下。


技術(shù)實現(xiàn)思路

1、本發(fā)明實施例提供一種哭聲分類預測方法、裝置、電子設備及存儲介質(zhì),用以解決哭聲分類預測的準確度和效率低下的問題。

2、第一方面,本發(fā)明實施例提供一種哭聲分類預測方法,包括:

3、獲取目標用戶的音頻序列和歷史行為信息;

4、基于所述音頻序列進行哭聲類型預測,得到哭聲類型預測向量;

5、基于所述歷史行為信息,確定所述目標用戶的調(diào)節(jié)向量;所述調(diào)節(jié)向量用于對所述哭聲類型預測向量進行歷史行為補充;

6、將所述哭聲類型預測向量和所述調(diào)節(jié)向量進行融合,得到目標預測結(jié)果。

7、在一個實施例中,所述基于所述歷史行為信息,確定所述目標用戶的調(diào)節(jié)向量,包括:

8、基于所述歷史行為信息的歷史行為時間,確定歷史行為間隔時間;

9、基于所述歷史行為間隔時間,確定歷史行為原因的概率參數(shù);

10、基于所述概率參數(shù),確定所述調(diào)節(jié)向量。

11、在一個實施例中,所述將所述哭聲類型預測向量和所述調(diào)節(jié)向量進行融合,得到目標預測結(jié)果,包括:

12、對所述調(diào)節(jié)向量進行矩陣轉(zhuǎn)置處理,得到調(diào)節(jié)轉(zhuǎn)置向量;

13、對所述哭聲類型預測向量和所述調(diào)節(jié)轉(zhuǎn)置向量進行點乘計算,得到目標預測向量;

14、基于所述目標預測向量,確定所述目標預測向量中的各哭聲類型的目標概率值;

15、基于所述目標預測向量中的各哭聲類型的目標概率值,確定目標預測結(jié)果。

16、在一個實施例中,所述基于所述目標預測向量中的各哭聲類型的目標概率值,確定目標預測結(jié)果,包括:

17、基于所述目標預測向量中的各哭聲類型的目標概率值,確定最大目標概率值;

18、基于所述最大目標概率值,確定目標預測結(jié)果。

19、在一個實施例中,所述基于所述音頻序列進行哭聲類型預測,得到哭聲類型預測向量,包括:

20、對所述音頻序列進行音頻預處理,得到至少一個音頻片段特征;

21、將各所述音頻片段特征輸入至哭聲類型預測模型,得到所述哭聲類型預測模型輸出的至少一個片段哭聲類型向量;所述哭聲類型預測模型是對音頻神經(jīng)網(wǎng)絡進行訓練得到的;

22、基于各所述片段哭聲類型向量,確定哭聲類型預測向量。

23、在一個實施例中,所述對所述音頻序列進行音頻預處理,得到至少一個音頻片段特征,包括:

24、將所述音頻序列進行切分處理,得到至少一個音頻片段;

25、將各所述音頻片段進行頻譜轉(zhuǎn)換,得到至少一個音頻片段特征。

26、在一個實施例中,所述基于各所述片段哭聲類型向量,確定哭聲類型預測向量,包括:

27、對各所述片段哭聲類型向量進行均值計算,得到所述哭聲類型預測向量。

28、第二方面,本發(fā)明實施例提供一種哭聲分類預測裝置,包括:

29、獲取模塊,用于獲取目標用戶的音頻序列和歷史行為信息;

30、預測模塊,用于基于所述音頻序列進行哭聲類型預測,得到哭聲類型預測向量;

31、調(diào)節(jié)模塊,用于基于所述歷史行為信息,確定所述目標用戶的調(diào)節(jié)向量;所述調(diào)節(jié)向量用于對所述哭聲類型預測向量進行歷史行為補充;

32、融合模塊,用于將所述哭聲類型預測向量和所述調(diào)節(jié)向量進行融合,得到目標預測結(jié)果。

33、第三方面,本發(fā)明實施例提供一種電子設備,包括處理器和存儲有計算機程序的存儲器,所述處理器執(zhí)行所述程序時實現(xiàn)第一方面所述的哭聲分類預測方法。

34、第四方面,本發(fā)明實施例提供一種存儲介質(zhì),所述存儲介質(zhì)為計算機可讀存儲介質(zhì),包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)第一方面所述的哭聲分類預測方法。

35、本發(fā)明實施例提供的哭聲分類預測方法、裝置、電子設備及存儲介質(zhì),將音頻序列和歷史行為信息分別作為獨立的模態(tài)數(shù)據(jù),通過音頻序列的哭聲類型預測得到哭聲類型預測向量,通過歷史行為的調(diào)節(jié)模式得到調(diào)節(jié)向量,進而通過融合各個模態(tài)的輸出預測出目標預測結(jié)果,實現(xiàn)哭聲類型預測向量的調(diào)節(jié),可以提升哭聲分類預測的準確度,也可以通過輕量化的多模態(tài)結(jié)構(gòu),減少計算難度,提高哭聲分類預測的效率。



技術(shù)特征:

1.一種哭聲分類預測方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的哭聲分類預測方法,其特征在于,所述基于所述歷史行為信息,確定所述目標用戶的調(diào)節(jié)向量,包括:

3.根據(jù)權(quán)利要求1所述的哭聲分類預測方法,其特征在于,所述將所述哭聲類型預測向量和所述調(diào)節(jié)向量進行融合,得到目標預測結(jié)果,包括:

4.根據(jù)權(quán)利要求3所述的哭聲分類預測方法,其特征在于,所述基于所述目標預測向量中的各哭聲類型的目標概率值,確定目標預測結(jié)果,包括:

5.根據(jù)權(quán)利要求1所述的哭聲分類預測方法,其特征在于,所述基于所述音頻序列進行哭聲類型預測,得到哭聲類型預測向量,包括:

6.根據(jù)權(quán)利要求5所述的哭聲分類預測方法,其特征在于,所述對所述音頻序列進行音頻預處理,得到至少一個音頻片段特征,包括:

7.根據(jù)權(quán)利要求5所述的哭聲分類預測方法,其特征在于,所述基于各所述片段哭聲類型向量,確定哭聲類型預測向量,包括:

8.一種哭聲分類預測裝置,其特征在于,包括:

9.一種電子設備,包括處理器和存儲有計算機程序的存儲器,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7任一項所述的哭聲分類預測方法。

10.一種存儲介質(zhì),所述存儲介質(zhì)為計算機可讀存儲介質(zhì),包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7任一項所述的哭聲分類預測方法。


技術(shù)總結(jié)
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,提供一種哭聲分類預測方法、裝置、電子設備及存儲介質(zhì),包括:獲取目標用戶的音頻序列和歷史行為信息;基于音頻序列進行哭聲類型預測,得到哭聲類型預測向量;基于歷史行為信息確定目標用戶的調(diào)節(jié)向量;將哭聲類型預測向量和調(diào)節(jié)向量進行融合,得到目標預測結(jié)果。本發(fā)明實施例提供的哭聲分類預測方法,將音頻序列和歷史行為信息分別作為獨立的模態(tài)數(shù)據(jù),通過音頻序列的哭聲類型預測得到哭聲類型預測向量,通過歷史行為的調(diào)節(jié)模式得到調(diào)節(jié)向量,進而通過融合各個模態(tài)的輸出預測出目標預測結(jié)果,實現(xiàn)哭聲類型預測向量的調(diào)節(jié),可以提升哭聲分類預測的準確度,也可以通過輕量化的多模態(tài)結(jié)構(gòu),提高哭聲分類預測的效率。

技術(shù)研發(fā)人員:林嘉銘,謝小燕,付濤
受保護的技術(shù)使用者:中移(杭州)信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1