本發(fā)明涉及音樂生成,特別是一種基于情感引導(dǎo)的音樂生成擴散方法。
背景技術(shù):
::1、近年來,人工智能技術(shù)在音樂創(chuàng)作領(lǐng)域取得了顯著進展,但針對藏族音樂自動生成的研究仍相對匱乏?,F(xiàn)有研究在藏族音樂生成中主要面臨三個挑戰(zhàn):缺乏特定情感的表達能力、高維特征處理效率低下,以及音樂上下文一致性不足。2、深度學(xué)習(xí)在音樂生成領(lǐng)域取得了顯著進展,極大地提升了音樂創(chuàng)作的效率和表現(xiàn)力。根據(jù)生成方法的不同,目前音樂生成領(lǐng)域的模型主要分為兩大類:基于transformer的自回歸模型和基于diffusion的擴散模型。3、自回歸模型通常通過逐步預(yù)測序列中的下一個元素,捕捉音樂的時間依賴性,以生成連續(xù)的音符或音頻信號。這類模型在處理音樂序列生成方面表現(xiàn)出色?;貧w模型以wavenet為代表,通過對標(biāo)量量化的波形樣本建模,能夠生成短小的音樂片段。然而,由于逐樣本生成的自回歸方式,其采樣效率較低。為提升效率,研究者通常采用將波形樣本編碼為低時間分辨率離散潛在表示(tokens)的方式。這些編碼器(如vq-vae及其變體)通過結(jié)合感知對抗損失進行訓(xùn)練,為自回歸transformer建模tokens序列提供支持,從而顯著提高了生成效率。在此類模型中,jukebox是一個具有代表性的框架,能夠從歌詞文本生成具有特定情感、風(fēng)格和樂器特性的音樂,推動了音樂生成技術(shù)的突破性進展。此外,musictransformer通過引入相對位置編碼,提升了對長時間依賴的建模能力,可以生成具有復(fù)雜和弦結(jié)構(gòu)的音樂。musenet基于多層lstm和transformer架構(gòu),支持多軌音樂生成,覆蓋從古典到流行的多種風(fēng)格。然而,這類模型主要專注于音源分離,難以生成具有創(chuàng)意性的全新音樂內(nèi)容,且在生成長序列時可能面臨效率低下和誤差累積的問題。4、相比之下,擴散模型在音樂生成中的表現(xiàn)尤為突出,尤其是在建模復(fù)雜數(shù)據(jù)分布和生成整體音樂片段方面。擴散模型通過逐步添加噪聲并反向去噪來生成數(shù)據(jù),具有強大的分布學(xué)習(xí)能力。例如,diffsound使用mel?vq-vae編碼器生成離散中間表示,并通過離散擴散模型對tokens序列建模,顯著提升了生成效率和細節(jié)表現(xiàn)力。一些方法進一步使用頻譜域或波形域的連續(xù)潛變量作為擴散的中間表示。stableaudio2結(jié)合波形域vae,使用擴散對其潛變量建模,從而生成整首歌曲。盡管擴散模型可以生成完整混合的音樂片段,但多數(shù)方法無法有效分離單獨的音源。而理想的音樂生成方法應(yīng)能同時生成并分離單獨音源,例如控制鋼琴與鼓的音量比例,使生成的音樂更加可解釋和可控。為此,部分研究轉(zhuǎn)向多軌建模的方法,如通過直接生成音樂音符或midi表示,并使用合成器解碼為單一波形;或者通過建模多軌音樂軌道,如stemgen利用掩碼語言模型對encodec?tokens進行建模,生成單一樂器音源。還有通過潛在擴散模型生成基于混合音源的貝斯伴奏,也有根據(jù)人聲音源生成背景伴奏。msdm則提出在波形域擴散模型上同時建模四種樂器音源,而gmsdi在此基礎(chǔ)上擴展至文本條件生成,支持更廣泛的音樂數(shù)據(jù)集。此外,也有文獻認(rèn)為音樂是由多個緊密相關(guān)的音軌組成的,提出了多源擴散模型musicldm,該模型可在統(tǒng)一的框架下同時處理音樂生成和音源分離任務(wù),為實現(xiàn)高度可控且富有創(chuàng)造力的音樂生成提供了新方向。stableaudio2則通過對波形域vae的潛變量進行擴散建模,不僅實現(xiàn)了整首歌曲的高效生成,還為音樂生成技術(shù)提供了更加完整的解決方案,進一步拓展了其應(yīng)用場景。5、盡管上述方法取得了顯著進展,但直接用于訓(xùn)練生成藏族音樂仍存在諸多局限性,突出表現(xiàn)在以下三個方面。首先,音樂情感表達不足,如生成一段藏族音樂時,現(xiàn)有模型無法準(zhǔn)確捕捉其獨特的情感特質(zhì),導(dǎo)致生成的音樂情緒與主題不符。其次,冗余特征影響生成效率。生成長時間音樂片段時,模型往往需要處理高維且冗余的特征數(shù)據(jù),低貢獻甚至無關(guān)的tokens不僅增加了計算成本,還可能引入噪聲,影響最終生成質(zhì)量。最后,上下文一致性缺失,現(xiàn)有模型在處理多樂器協(xié)奏時,往往無法有效利用先前生成的音軌(如鋼琴或笛子),導(dǎo)致后續(xù)生成的樂器(如鼓或貝斯)與前者旋律缺乏協(xié)調(diào)性。技術(shù)實現(xiàn)思路1、為解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的是提供一種基于情感引導(dǎo)的音樂生成擴散方法,本發(fā)明探索同時處理音樂生成和音源分離的任務(wù),以期實現(xiàn)高質(zhì)量且具有強解釋性和控制性的音樂生成。2、為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是一種基于情感引導(dǎo)的音樂生成擴散方法,包括以下步驟:3、步驟1、通過訓(xùn)練變分自編碼器vae壓縮音樂音頻以提取潛在特征,利用擴散模型對潛在變量進行建模;4、步驟2、基于情感引導(dǎo)完成音樂的擴散過程:嵌入情感引導(dǎo)模型來生成特定情感的音樂;隨機選擇的tokens被丟棄來提高效率;將上一個擴散過程生成的潛在變量作為條件輸入,來增強生成結(jié)果的一致性。5、作為本發(fā)明的進一步改進,所述步驟1具體包括以下步驟:6、步驟1.1、變分自編碼器vae用于將包含n個樣本波形域的音樂音源表示s∈rn壓縮到一個緊湊且具有連續(xù)性的潛在空間,同時確保重建結(jié)果在感知上與原始音源不可區(qū)分;給定一個輸入信號s,編碼器將其映射為后驗分布:其中,是潛在后驗均值,∑z(s)為后驗協(xié)方差矩陣,d為時域下采樣因子,c為潛在空間維度;7、步驟1.2、編碼后,通過采樣并將其輸入解碼器以重建信號s;使用后驗均值zs=μz(s)作為潛在表示;8、步驟1.3、基于潛在擴散模型,在前向擴散過程中,原始樣本x0經(jīng)過t步逐步添加噪聲,生成一系列帶噪樣本x1,x2,...,xt;在每一個時間步t,樣本xt的條件概率分布由前一時刻的樣本xt-1確定,其數(shù)學(xué)形式為:其中,β1,…,βt,…,βt是預(yù)定義的噪聲調(diào)度參數(shù);9、步驟1.4、根據(jù)高斯分布的性質(zhì),推導(dǎo)出:其中αt=1-βt;通過采樣并使用重參數(shù)化技巧,得到樣本10、步驟1.5、逆向生成過程從純噪聲樣本xt開始,逐步去噪重建xt-1,xt-2,…,x0,最終得到逼真的樣本;逆向過程被定義為條件概率分布pθ(xt-1|xt),通過一個神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí),用于近似q(xt-1|xt,x0);11、步驟1.6、為了學(xué)習(xí)pθ(xt-1|xt),訓(xùn)練模型輸出∈θ(xt,t)來恢復(fù)生成xt時所加入的噪聲∈;訓(xùn)練擴散模型的損失函數(shù)為:12、步驟1.7、在推理時,給定xt和預(yù)測的噪聲,通過以下公式從pθ(xt-1|xt)采樣:其中13、作為本發(fā)明的進一步改進,所述步驟2具體包括以下步驟:14、步驟2.1、引入情感特征編碼器,將音樂情感特征通過交叉注意力機制嵌入到擴散模型中,指導(dǎo)擴散模型生成符合特定情感的音樂片段;15、步驟2.2、改進token?drop策略,使其在訓(xùn)練過程中隨機丟棄部分tokens,16、步驟2.3、提出self-conditioning機制,利用擴散模型先前的生成結(jié)果作為條件輸入,為后續(xù)生成提供上下文信息,從而確保音樂旋律與情感的一致性。17、作為本發(fā)明的進一步改進,所述步驟2.1具體如下:18、設(shè)多個輸入音樂音源的潛在表示為其中zi是第i個音樂片段的潛在表示,k為片段數(shù);音樂情感信息通過情感特征編碼器生成,情感特征編碼器將情感描述映射到潛在空間中的特征矩陣e∈rm×c,其中m是情感特征的數(shù)量;在生成過程中,采用交叉注意力機制將情感信息與潛在表示結(jié)合:其中a∈rk×m是注意力權(quán)重,是融合情感信息后的潛在表示。19、作為本發(fā)明的進一步改進,所述步驟2.2具體如下:20、將潛在表示zt劃分為大小為p×p的小塊,每個小塊展平成向量后形成令牌,令牌總數(shù)為隨后,將令牌重塑為矩陣其中d=c×p2表示單個令牌的維度;21、基于動態(tài)掩蔽機制,對令牌矩陣u進行選擇性掩蔽:1)定義掩蔽比例ρ,用于確定需要掩蔽的令牌數(shù)量ρn;2)構(gòu)造掩碼矩陣通過隨機或基于特定權(quán)重選擇部分令牌進行掩蔽,m[i]=1表示被掩蔽,m[i]=0表示未掩蔽;3)掩蔽后的令牌表示為:u′=m⊙u+(1-m)⊙0,其中⊙表示逐元素乘積操作;22、擴散模型的編碼器專注于未掩蔽令牌u′的處理,生成特征表示q;引入側(cè)插值器int(·)恢復(fù)被掩蔽的令牌,通過插值方式填補掩蔽區(qū)域,公式為:k=(1-m)·q+m·int(q),其中,int(q)根據(jù)編碼器輸出q對掩蔽令牌進行估計;插值后的令牌k結(jié)合位置嵌入輸入解碼器,恢復(fù)完整的潛在表示并通過變分自編碼器vae還原高分辨率音頻數(shù)據(jù)。23、作為本發(fā)明的進一步改進,所述步驟2.3具體如下:24、利用self-conditioning在去噪網(wǎng)絡(luò)中引入上一時間步的估計使網(wǎng)絡(luò)能夠參考歷史信息來改進當(dāng)前時間步的預(yù)測;在self-conditioning中,將去噪網(wǎng)絡(luò)的估計修改為:其中是前一時間步t+1的估計,在特征軸上將xt和拼接;25、在訓(xùn)練階段,設(shè)置self-conditioning輸入為零,即計算一個初步估計:其中是僅根據(jù)當(dāng)前噪聲表示xt和時間步t的估計結(jié)果;26、帶self-conditioning的估計時,在第一次前向傳播中得到初步估計后,通過停止梯度操作,將用作self-conditioning輸入,進行第二次前向傳播:然后,去噪網(wǎng)絡(luò)使用兩次前向傳播的輸出進行優(yōu)化,以便能夠準(zhǔn)確估計x0;27、在擴散過程中,按照時間調(diào)度σ(t)=t,前向擴散過程定義為:其中28、通過求解ode反向過程來采樣其中分?jǐn)?shù)項由神經(jīng)網(wǎng)絡(luò)近似,并通過分?jǐn)?shù)匹配損失進行訓(xùn)練。29、作為本發(fā)明的進一步改進,所述音樂為藏族音樂,逐步解決了藏族音樂生成中缺乏特定情感的表達能力、高維特征處理效率低下,以及音樂上下文一致性不足的問題。30、為解決上述問題,本算法提出了一種基于情感引導(dǎo)的擴散方法,該方法基于vae-diffusion框架,利用變分自編碼器提取音源數(shù)據(jù)的關(guān)鍵潛在特征,并在擴散過程中對其進行建模。31、本發(fā)明的有益效果是:32、現(xiàn)有研究在藏族音樂生成中主要面臨三個挑戰(zhàn):缺乏特定情感的表達能力、高維特征處理效率低下,以及音樂上下文一致性不足;為解決上述問題,本發(fā)明提出了一種基于情感引導(dǎo)的擴散模型用于藏族音樂生成方法。該算法基于latent?diffusion框架,通過訓(xùn)練共享的變分自編碼器(variational?autoencoder,vae)壓縮音樂音頻以提取潛在特征,利用擴散模型對潛在變量進行建模。在整個擴散過程中,本發(fā)明結(jié)合以下三個創(chuàng)新點提升音樂生成的質(zhì)量與一致性。第一,引入情感特征編碼器,將音樂情感特征通過交叉注意力機制嵌入到擴散模型中,指導(dǎo)擴散模型生成符合特定情感的音樂片段,從而更好地滿足藏族音樂的情感需求。第二,改進token?drop策略使其在訓(xùn)練過程中隨機丟棄部分tokens,增強模型對缺失信息的魯棒性,提升生成音樂的多樣性與連續(xù)性,同時有效過濾冗余信息以降低計算成本。第三,提出self-conditioning機制,利用模型先前的生成結(jié)果作為條件輸入,為后續(xù)生成提供上下文信息,從而確保音樂旋律與情感的一致性,特別是在多樂器協(xié)奏中提高協(xié)調(diào)性。當(dāng)前第1頁12當(dāng)前第1頁12