本公開涉及音頻處理領域,尤其涉及音頻處理方法、音頻處理裝置及存儲介質。
背景技術:
1、多聲源分離技術是指從混合信號中分離出不同聲源的信號,是信號處理領域的一個重要研究方向。在音頻信號處理領域,多源分離技術已經成為了語音識別、語音增強、語音合成等應用的重要基礎。
2、相關技術中,音頻分離效果不理想,分離得到的音頻不清晰,難以處理重疊的聲音信號。
技術實現思路
1、為克服相關技術中存在的問題,本公開提供一種音頻處理方法、音頻處理裝置及存儲介質。
2、根據本公開實施例的第一方面,提供一種音頻處理方法,包括:獲取待處理音頻,并獲取待提取音頻的文本描述信息;獲取第一特征信息,并獲取所述待處理音頻的相位信息,所述第一特征信息為所述待處理音頻的音頻特征信息;根據所述文本描述信息和所述第一特征信息,通過擴散模型得到第二特征信息,所述第二特征信息為所述待提取音頻的音頻特征信息;根據所述相位信息對所述第二特征信息進行音頻恢復處理,將所述音頻恢復處理得到的音頻,確定為目標音頻。
3、一種實施方式中,所述獲取第一特征信息,包括:將所述待處理音頻的時域信號轉換為頻域信號,并獲取所述頻域信號對應的頻譜圖;對所述頻譜圖進行編碼處理,得到所述第一特征信息。
4、一種實施方式中,所述根據所述文本描述信息和所述第一特征信息,通過擴散模型得到第二特征信息,包括:通過大語言模型處理所述文本描述信息,獲取語義嵌入層;根據所述文本描述信息,確定待提取音頻的數量和識別類型;根據所述待提取音頻的數量和識別類型和所述語義嵌入層,對所述第一特征信息進行加噪處理,獲取加噪特征信息;根據所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行擴散處理,得到第二特征信息。
5、一種實施方式中,所述待提取音頻的識別類型包括已知類型和未知類型,已知類型的音頻與擴散模型訓練數據中音頻的音頻類型相同,未知類型的音頻與擴散模型訓練數據中音頻的音頻類型不同,所述待提取音頻的數量包括單個或多個;所述根據所述待提取音頻的數量和識別類型和所述語義嵌入層,對所述第一特征信息進行加噪處理,獲取加噪特征信息,包括:響應于所述數量為單個,且單個待提取音頻的識別類型為已知類型,根據所述語義嵌入層對所述第一特征信息進行加噪處理,獲取所述加噪特征信息;響應于所述數量為單個,且單個待提取音頻的識別類型為未知類型,獲取零樣本特征信息,根據所述語義嵌入層和所述零樣本特征信息對所述第一特征信息進行加噪處理,獲取所述加噪特征信息;響應于所述數量為多個,且多個待提取音頻的識別類型均為已知類型,獲取噪聲補償信息,根據所述語義嵌入層和所述噪聲補償信息逐次對所述第一特征信息進行加噪處理,獲取多項加噪特征信息;響應于所述數量為多個,且多個待提取音頻中存在識別類型為未知類型的音頻,獲取零樣本特征信息和噪聲補償信息,根據所述語義嵌入層、所述零樣本特征信息和所述噪聲補償信息逐次對所述第一特征信息進行加噪處理,獲取多項加噪特征信息。
6、一種實施方式中,所述獲取零樣本特征信息,包括:根據所述未知類型的待提取音頻的音頻類型,獲取相同音頻類型的零樣本音頻;將所述零樣本音頻的時域信號轉換為頻域信號,并獲取所述頻域信號對應的頻譜圖;對所述頻譜圖進行編碼處理,得到所述零樣本特征信息。
7、一種實施方式中,所述噪聲補償信息為逐次更新的信息,所述根據所述語義嵌入層和所述噪聲補償信息逐次對所述第一特征信息進行加噪處理,獲取多項加噪特征信息,包括:在進行首次加噪處理時,根據所述語義嵌入層對所述第一特征信息進行加噪處理,獲取加噪特征信息;在完成首次加噪處理后,逐次獲取更新的噪聲補償信息,根據所述語義嵌入層、所述逐次更新的噪聲補償信息,對所述第一特征信息進行逐次加噪處理,獲取多項加噪特征信息;將進行首次加噪處理時獲取的加噪特征信息和逐次加噪處理獲取的多項加噪特征信息,確定為待獲取音頻的加噪特征信息。
8、一種實施方式中,所述噪聲補償信息為逐次更新的信息,所述根據所述語義嵌入層、所述零樣本特征信息和所述噪聲補償信息逐次對所述第一特征信息進行加噪處理,獲取多項加噪特征信息,包括:在進行首次加噪處理時,根據所述語義嵌入層、所述零樣本特征信息對所述第一特征信息進行加噪處理,獲取加噪特征信息,或根據所述語義嵌入層對所述第一特征信息進行加噪處理,獲取加噪特征信息;在完成首次加噪處理后,逐次獲取更新的噪聲補償信息,根據所述語義嵌入層、所述零樣本特征信息和所述逐次更新的噪聲補償信息,對所述第一特征信息進行逐次加噪處理,獲取多項加噪特征信息,或在完成首次加噪處理后,逐次獲取更新的噪聲補償信息,根據所述語義嵌入層和所述逐次更新的噪聲補償信息,對所述第一特征信息進行逐次加噪處理,獲取多項加噪特征信息;將進行首次加噪處理時獲取的加噪特征信息和完成逐次加噪處理獲取的多項加噪特征信息,確定為待獲取音頻的加噪特征信息。
9、一種實施方式中,所述根據所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行擴散處理,得到第二特征信息,包括:響應于所述待提取音頻的數量為單個,根據所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行擴散處理,得到單個第二特征信息;響應于所述待提取音頻的數量為多個,根據所述語義嵌入層和逐次獲取的加噪特征信息,通過擴散模型對所述第一特征信息進行逐次擴散處理,逐次得到多個第二特征信息。
10、一種實施方式中,所述方法還包括:響應于所述加噪特征信息不是基于零樣本特征信息獲取的信息,根據所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行去噪的擴散處理,消除所述第一特征信息中與所述加噪特征信息對應的特征信息,得到第二特征信息;響應于所述加噪特征信息是基于零樣本特征信息獲取的信息,根據所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行映射的擴散處理,保留所述第一特征信息中與所述加噪特征信息對應的特征信息,得到第二特征信息。
11、一種實施方式中,所述根據所述相位信息對所述第二特征信息進行音頻恢復處理,將所述音頻恢復處理得到的音頻,確定為所述目標音頻,包括:響應于待提取音頻的數量為多個,根據所述相位信息對逐次得到第二特征信息逐次進行音頻恢復處理,將逐次音頻恢復處理得到的多個音頻,確定為所述目標音頻;響應于待提取音頻的數量為單個,根據所述相位信息對得到第二特征信息進行音頻恢復處理,將音頻恢復處理得到的單個音頻,確定為所述目標音頻。
12、一種實施方式中,所述噪聲補償信息采用如下方式獲?。焊鶕鸫我纛l恢復處理得到的音頻,逐次提取所述音頻的特征信息,并根據逐次提取的特征信息,逐次更新噪聲補償信息。
13、根據本公開實施例的第二方面,提供一種音頻處理裝置,包括:獲取單元,用于獲取待處理音頻,并獲取待提取音頻的文本描述信息,獲取第一特征信息,并獲取所述待處理音頻的相位信息,所述第一特征信息為所述待處理音頻的音頻特征信息;處理單元,用于根據所述文本描述信息和所述第一特征信息,通過擴散模型得到第二特征信息,所述第二特征信息為所述待提取音頻的音頻特征信息;確定單元,用于根據所述相位信息對所述第二特征信息進行音頻恢復處理,將所述音頻恢復處理得到的音頻,確定為目標音頻。
14、一種實施方式中,所述獲取單元采用如下方式獲取第一特征信息:將所述待處理音頻的時域信號轉換為頻域信號,并獲取所述頻域信號對應的頻譜圖;對所述頻譜圖進行編碼處理,得到所述第一特征信息。
15、一種實施方式中,所述處理單元采用如下方式根據所述文本描述信息和所述第一特征信息,通過擴散模型得到第二特征信息:通過大語言模型處理所述文本描述信息,獲取語義嵌入層;根據所述文本描述信息,確定待提取音頻的數量和識別類型;根據所述待提取音頻的數量和識別類型和所述語義嵌入層,對所述第一特征信息進行加噪處理,獲取加噪特征信息;根據所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行擴散處理,得到第二特征信息。
16、一種實施方式中,所述待提取音頻的識別類型包括已知類型和未知類型,已知類型的音頻與擴散模型訓練數據中音頻的音頻類型相同,未知類型的音頻與擴散模型訓練數據中音頻的音頻類型不同,所述待提取音頻的數量包括單個或多個;所述處理單元采用如下方式根據所述待提取音頻的數量和識別類型和所述語義嵌入層,對所述第一特征信息進行加噪處理,獲取加噪特征信息:響應于所述數量為單個,且單個待提取音頻的識別類型為已知類型,根據所述語義嵌入層對所述第一特征信息進行加噪處理,獲取所述加噪特征信息;響應于所述數量為單個,且單個待提取音頻的識別類型為未知類型,獲取零樣本特征信息,根據所述語義嵌入層和所述零樣本特征信息對所述第一特征信息進行加噪處理,獲取所述加噪特征信息;響應于所述數量為多個,且多個待提取音頻的識別類型均為已知類型,獲取噪聲補償信息,根據所述語義嵌入層和所述噪聲補償信息逐次對所述第一特征信息進行加噪處理,獲取多項加噪特征信息;響應于所述數量為多個,且多個待提取音頻中存在識別類型為未知類型的音頻,獲取零樣本特征信息和噪聲補償信息,根據所述語義嵌入層、所述零樣本特征信息和所述噪聲補償信息逐次對所述第一特征信息進行加噪處理,獲取多項加噪特征信息。
17、一種實施方式中,所述處理單元采用如下方式獲取零樣本特征信息:根據所述未知類型的待提取音頻的音頻類型,獲取相同音頻類型的零樣本音頻;將所述零樣本音頻的時域信號轉換為頻域信號,并獲取所述頻域信號對應的頻譜圖;對所述頻譜圖進行編碼處理,得到所述零樣本特征信息。
18、一種實施方式中,所述噪聲補償信息為逐次更新的信息,所述處理單元采用如下方式根據所述語義嵌入層和所述噪聲補償信息逐次對所述第一特征信息進行加噪處理,獲取多項加噪特征信息:在進行首次加噪處理時,根據所述語義嵌入層對所述第一特征信息進行加噪處理,獲取加噪特征信息;在完成首次加噪處理后,逐次獲取更新的噪聲補償信息,根據所述語義嵌入層、所述逐次更新的噪聲補償信息,對所述第一特征信息進行逐次加噪處理,獲取多項加噪特征信息;將進行首次加噪處理時獲取的加噪特征信息和逐次加噪處理獲取的多項加噪特征信息,確定為待獲取音頻的加噪特征信息。
19、一種實施方式中,所述噪聲補償信息為逐次更新的信息,所述處理單元采用如下方式根據所述語義嵌入層、所述零樣本特征信息和所述噪聲補償信息逐次對所述第一特征信息進行加噪處理,獲取多項加噪特征信息:在進行首次加噪處理時,根據所述語義嵌入層、所述零樣本特征信息對所述第一特征信息進行加噪處理,獲取加噪特征信息;在完成首次加噪處理后,逐次獲取更新的噪聲補償信息,根據所述語義嵌入層、所述零樣本特征信息和所述逐次更新的噪聲補償信息,對所述第一特征信息進行逐次加噪處理,獲取多項加噪特征信息;將進行首次加噪處理時獲取的加噪特征信息和完成逐次加噪處理獲取的多項加噪特征信息,確定為待獲取音頻的加噪特征信息。
20、一種實施方式中,所述處理單元采用如下方式根據所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行擴散處理,得到第二特征信息:響應于所述待提取音頻的數量為單個,根據所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行擴散處理,得到單個第二特征信息;響應于所述待提取音頻的數量為多個,根據所述語義嵌入層和逐次獲取的加噪特征信息,通過擴散模型對所述第一特征信息進行逐次擴散處理,逐次得到多個第二特征信息。
21、一種實施方式中,所述處理單元還用于:響應于所述加噪特征信息不是基于零樣本特征信息獲取的信息,根據所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行去噪的擴散處理,消除所述第一特征信息中與所述加噪特征信息對應的特征信息,得到第二特征信息;響應于所述加噪特征信息是基于零樣本特征信息獲取的信息,根據所述加噪特征信息和所述語義嵌入層,通過擴散模型對所述第一特征信息進行映射的擴散處理,保留所述第一特征信息中與所述加噪特征信息對應的特征信息,得到第二特征信息。
22、一種實施方式中,所述確定單元采用如下方式根據所述相位信息對所述第二特征信息進行音頻恢復處理,將所述音頻恢復處理得到的音頻,確定為所述目標音頻:響應于待提取音頻的數量為多個,根據所述相位信息對逐次得到第二特征信息逐次進行音頻恢復處理,將逐次音頻恢復處理得到的多個音頻,確定為所述目標音頻;響應于待提取音頻的數量為單個,根據所述相位信息對得到第二特征信息進行音頻恢復處理,將音頻恢復處理得到的單個音頻,確定為所述目標音頻。
23、一種實施方式中,所述噪聲補償信息通過所述處理單元采用如下方式獲?。焊鶕鸫我纛l恢復處理得到的音頻,逐次提取所述音頻的特征信息,并根據逐次提取的特征信息,逐次更新噪聲補償信息。
24、根據本公開實施例的第三方面,提供一種音頻處理裝置,包括:處理器:用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為:執(zhí)行第一方面或者第一方面任意一種實施方式中所述的音頻處理方法。
25、根據本公開實施例的第四方面,提供一種存儲介質,所述存儲介質中存儲有指令,當所述存儲介質中的指令由處理器執(zhí)行時,使得處理器能夠執(zhí)行第一方面或者第一方面任意一種實施方式中所述的音頻處理方法。
26、本公開的實施例提供的技術方案可以包括以下有益效果:獲取待處理音頻,并獲取待處理音頻的相位信息和音頻特征信息。根據待提取音頻的文本描述信息和待處理音頻的音頻特征信息,通過擴散模型得到對應于待提取音頻的音頻特征信息。根據待處理音頻的相位信息對對應于待提取音頻的音頻特征信息進行音頻恢復處理,得到目標音頻。通過本公開,基于文本信息的指導,通過擴散模型進行聲源分離,保證分離效果的穩(wěn)定性,使獲取得到的音頻來自于目標聲源,不存在其他聲源的干擾。
27、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。