聲音合成方法、聲音合成裝置和存儲聲音合成程序的介質(zhì)的制作方法

文檔序號：10595510閱讀：669來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

聲音合成方法、聲音合成裝置和存儲聲音合成程序的介質(zhì)的制作方法
【專利摘要】本發(fā)明提供了聲音合成方法、聲音合成裝置和存儲聲音合成程序的介質(zhì)。一種聲音合成方法，用于通過提取自參考聲音的語音片段的連接而產(chǎn)生聲音信號，所述方法包括：由片段選擇單元順序地選擇所述語音片段；由音高設(shè)置單元設(shè)置音高過渡，在所述音高過渡中，根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應(yīng)的音級，來反映所述語音片段的觀測音高的變動；以及由聲音合成單元通過根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過渡而調(diào)整所述片段選擇單元所選擇的語音片段的音高，來產(chǎn)生所述聲音信號。
【專利說明】聲音合成方法、聲音合成裝置和存儲聲音合成程序的介質(zhì)
[0001]相關(guān)申請的交叉引用
[0002]本申請要求日本申請JP 2015-043918的優(yōu)先權(quán)，所述申請的內(nèi)容通過引用合并于本申請。
技術(shù)領(lǐng)域
[0003]本發(fā)明的一個或多個實施例涉及用于控制例如待合成的聲音的音高的暫時性變動(下面被稱作“音高過渡”)的技術(shù)。
【背景技術(shù)】
[0004]迄今，已經(jīng)提出了聲音合成技術(shù)，其用于對由用戶在時間序列中指定的具有任意音高的歌唱聲音進(jìn)行合成。例如，在日本專利申請公開N0.2014-098802中，描述了一種配置，該配置通過設(shè)置與被指定為待合成對象的多個音符的時間序列相對應(yīng)的音高過渡(音高曲線)、沿著音高過渡調(diào)整與聲產(chǎn)生細(xì)節(jié)相對應(yīng)的語音片段的音高、并隨后使各個語音片段彼此連結(jié)，來合成歌唱聲音。
[0005]作為用于產(chǎn)生音高過渡的技術(shù)，還存在以下配置:例如，F(xiàn)ujisaki發(fā)表在MacNeilage ,P.F.(Ed.)The Product1n of Speech, (Springer-Verlag，紐約，美國)的第39-55頁的 “Dynamic Characteristics of Voice Fundamental Frequency in Speechand Singing”中所公開的使用Fujisaki模型的配置；以及Keiichi Tokuda發(fā)表在TheInstitute of Electronics , Informat1n and Communicat1n Engineers, TechnicalResearch Report，Vol.100,N0.392，SP2000-74，第43-50頁，(2000).的“Basics of VoiceSynthesis based on HMM”中所公開的配置，該配置使用通過應(yīng)用了大量聲音的機(jī)器學(xué)習(xí)產(chǎn)生的HMM。此外，在Suni，A.S.,Aalto1D.,Rait11T.,Alku,P.,Vain1，Μ.等人發(fā)表在2013年8月31日至2013年9月2日于巴塞羅那召開的第八屆語音合成ISCA工作會議會刊(8thISCA Workshop on Speech Synthesis ,Proceedings)中的 “Wavelets for Intonat1nModeling in HMM Speech Synthesis”中公開了這樣的配置，其用于通過將音高過渡分解為句子、短語、詞語、音節(jié)、音素(phoneme)而執(zhí)行HMM的機(jī)器學(xué)習(xí)。

【發(fā)明內(nèi)容】

[0006]附帶地，在人類發(fā)出的實際聲音中，觀察到了這一現(xiàn)象:音高根據(jù)聲產(chǎn)生目標(biāo)的音素而在較短的時間段內(nèi)顯著變動(下面被稱作“音素相關(guān)變動”)。例如，如圖9所示，可在被發(fā)聲輔音的區(qū)段(在圖9的示例中，音素[m]和音素[g]的區(qū)段)以及其中進(jìn)行不發(fā)聲輔音和元音中的一個到另一個的過渡的區(qū)段(在圖9的示例中，在其中進(jìn)行從音素[k]到音素[i]的過渡的區(qū)段)中確認(rèn)音素相關(guān)變動(所謂微韻律)。
[0007]在Fuj i saki發(fā)表在MacNei Iage，P.F.(Ed.) The Product1n of Speech ,(Springer-Verlag，紐約，美國)的第39-55頁的 “Dynamic Characteristics of VoiceFundamental Frequency in Speech and Singing”的技術(shù)中，容易出現(xiàn)較長時間段期間的音高變動(例如句子)，因而難以重現(xiàn)各個音素單元中出現(xiàn)的音素相關(guān)變動。另一方面，在Keiichi Tokuda發(fā)表在The Institute of Electronics , Informat1n andCommunicat1n Engineers,Technical Research Report,Vol.100，N0.392，SP2000_74，第43-50頁，(2000).的 “Basics of Voice Synthesis based on HMM” 的技術(shù)以及Suni，A.S.，Aalto1D.,Rait11T.，Alku，P.，Vain1，M.等人發(fā)表在2013年8月31 日至2013年9月2日于巴塞羅那召開的第八屆語音合成ISCA工作會議會刊(8th ISCA Workshop on SpeechSynthesis ,Proceedings)的技術(shù)中，當(dāng)在用于機(jī)器學(xué)習(xí)的大量聲音中包括音素相關(guān)變動時，期望產(chǎn)生如實重現(xiàn)實際音素相關(guān)變動的音高過渡。然而，除音素相關(guān)變動之外的音素的簡單錯誤也被反映在音高過渡中，這會使人擔(dān)心通過使用音高過渡而合成的聲音會被聽眾感知為走調(diào)(即，偏離開適當(dāng)音高的五音不全歌唱聲音)。鑒于上述情形，本發(fā)明的一個或多個實施例的目的在于，產(chǎn)生音高過渡，在該音高過渡中反映了音素相關(guān)變動而同時減小了對被感知為走調(diào)的擔(dān)憂。
[0008]在本發(fā)明的一個或多個實施例中，一種聲音合成方法用于通過提取自參考聲音的語音片段的連接而產(chǎn)生聲音信號，所述聲音合成方法包括:由片段選擇單元順序地選擇所述語音片段；由音高設(shè)置單元設(shè)置音高過渡，在所述音高過渡中，根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應(yīng)的音級，來反映所述語音片段的觀測音高的變動；以及由聲音合成單元通過根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過渡而調(diào)整所述片段選擇單元所選擇的語音片段的音高，來產(chǎn)生所述聲音信號。
[0009]在本發(fā)明的一個或多個實施例中，一種聲音合成裝置被配置為通過提取自參考聲音的語音片段的連接而產(chǎn)生聲音信號，所述聲音合成裝置包括被配置為順序地選擇聲音片段的片段選擇單元。所述聲音合成裝置還包括:音高設(shè)置單元，其被配置為設(shè)置音高過渡，在所述音高過渡中，根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應(yīng)的音級，來反映所述語音片段的觀測音高的變動；以及聲音合成單元，其被配置為通過根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過渡而調(diào)整所述片段選擇單元所選擇的語音片段的音高，來產(chǎn)生所述聲音信號。
[0010]在本發(fā)明的一個或多個實施例中，一種非暫時性計算機(jī)可讀記錄介質(zhì)，其存儲用于通過提取自參考聲音的語音片段的連接而產(chǎn)生聲音信號的聲音合成程序，所述程序使得計算機(jī)充當(dāng):片段選擇單元，其被配置為順序地選擇所述語音片段;音高設(shè)置單元，其被配置為設(shè)置音高過渡，在所述音高過渡中，根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應(yīng)的音級，來反映所述語音片段的觀測音高的變動；以及聲音合成單元，其被配置為通過根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過渡而調(diào)整所述片段選擇單元所選擇的語音片段的音高，來產(chǎn)生所述聲音信號。
【附圖說明】
[0011]圖1是根據(jù)本發(fā)明的第一實施例的聲音合成裝置的框圖。
[0012]圖2是音高設(shè)置單元的框圖。
[0013]圖3是用于示出所述音高設(shè)置單元的操作的曲線圖。
[0014]圖4是用于示出參考音高和觀測音高之間的差值與調(diào)整值之間的關(guān)系的曲線圖。
[0015]圖5是變動分析單元的操作的流程圖。
[0016]圖6是根據(jù)本發(fā)明的第二實施例的音高設(shè)置單元的框圖。
[0017]圖7是用于示出平滑處理單元的操作的曲線圖。
[0018]圖8是用于示出根據(jù)本發(fā)明的第三實施例的差值與調(diào)整值之間的關(guān)系的曲線圖。
[0019]圖9是用于不出首素相關(guān)變動的曲線圖。
【具體實施方式】
[0020]〈第一實施例〉
[0021]圖1是根據(jù)本發(fā)明的第一實施例的聲音合成裝置100的框圖。根據(jù)第一實施例的聲音合成裝置100是被配置為產(chǎn)生任意歌曲(下面被稱作“目標(biāo)歌曲”)的歌唱聲音的聲音信號V的信號處理裝置，并且通過包括處理器12、存儲裝置14和發(fā)聲裝置16的計算機(jī)系統(tǒng)實現(xiàn)。例如，便攜式信息處理裝置(例如移動電話或智能電話)或者便攜式或固定式信息處理裝置(例如個人計算機(jī))可用作聲音合成裝置100。
[0022]存儲裝置14存儲由處理器12執(zhí)行的程序以及由處理器12使用的各種類型的數(shù)據(jù)。已知的記錄介質(zhì)(例如半導(dǎo)體記錄介質(zhì)或磁性記錄介質(zhì))或者多種類型的記錄介質(zhì)的組合可任意地用作存儲裝置14。根據(jù)第一實施例的存儲裝置14存儲語音片段組L和合成信息S。
[0023]語音片段組L是預(yù)先從特定發(fā)聲者發(fā)出的聲音(下面被稱作“參考聲音”)提取的多個語音片段P的一個集合(所謂聲音合成庫)。每個語音片段P為單個音素(例如，元音和輔音)或通過連結(jié)多個音素而獲得的音素鏈(例如，雙音或三音)。每個語音片段P被表示為時間域中的聲音波形的采樣序列或者頻域中的頻譜的時間序列。
[0024]參考聲音是利用預(yù)定音高(下面被稱作“參考音高”)FR作為參考而產(chǎn)生的聲音。具體地，發(fā)聲者發(fā)出參考聲音，使得他/她自己的聲音達(dá)到參考音高Fr。因此，每個語音片段P的音高與參考音高Fr基本匹配，但是每個語音片段P的音高可包含可歸于音素相關(guān)變動的從參考音高Fr的變動等。如圖1所示，根據(jù)第一實施例的存儲裝置14存儲參考音高Fr。
[0025]合成信息S指定作為要由聲音合成裝置100合成的目標(biāo)的聲音。根據(jù)第一實施例的合成信息S是時間序列數(shù)據(jù)，其用于指定形成目標(biāo)歌曲的多個音符的時間序列，并且合成信息S針對目標(biāo)歌曲的每個音符指定如圖1所示的音高X1、聲產(chǎn)生周期X2以及聲產(chǎn)生細(xì)節(jié)(聲產(chǎn)生特性W3t3X1被指定為例如符合樂器數(shù)字接口(MIDI)標(biāo)準(zhǔn)的音符編號。聲產(chǎn)生周期X2是持續(xù)產(chǎn)生所述音符的聲音的周期，并且被指定為例如聲產(chǎn)生的起始點及其持續(xù)時間(音值)。聲產(chǎn)生細(xì)節(jié)X3是合成的聲音的語音單元(具體地，所述目標(biāo)歌曲的歌詞的音節(jié))。
[0026]根據(jù)第一實施例的處理器12執(zhí)行存儲在存儲裝置14中的程序，從而用作合成處理單元20，該合成處理單元20通過利用存儲在存儲裝置14中的語音片段組L和合成信息S來產(chǎn)生聲音信號V。具體地，根據(jù)第一實施例的合成處理單元20基于音高X1和聲產(chǎn)生周期X2，來調(diào)整在語音片段組L之中與合成信息S在時間序列中指定的聲產(chǎn)生細(xì)節(jié)X3相對應(yīng)的各個語音片段P，并隨后將各個語音片段P彼此連接，從而產(chǎn)生聲音信號V。注意的是，可采用處理器12的各功能分布到多個裝置中的配置或者聲音合成專用的電子電路實現(xiàn)處理器12的所有功能或一部分功能的配置。圖1所示的發(fā)聲裝置16(例如，揚聲器或耳機(jī))發(fā)出與處理器12所產(chǎn)生的聲音信號V相對應(yīng)的音響效果。注意的是，為了方便起見，省略了被配置為將聲音信號V從數(shù)字信號轉(zhuǎn)換為模擬信號的D/A轉(zhuǎn)換器的示意。
[0027]如圖1所示，根據(jù)第一實施例的合成處理單元20包括片段選擇單元22、音高設(shè)置單元24和聲音合成單元26。片段選擇單元22順序地選擇各個語音片段P，該語音片段P對應(yīng)于由合成信息S在時間序列中從存儲裝置14內(nèi)的語音片段組L中指定的聲產(chǎn)生細(xì)節(jié)X3。音高設(shè)置單元24設(shè)置合成的聲音的音高的暫時性過渡(下面被稱作“音高過渡”)C。簡言之，基于合成信息S的音高X1和聲產(chǎn)生周期X2來設(shè)置音高過渡(音高曲線)C，以便跟隨由合成信息S針對每個首符指定的首尚Xi的時間序列。聲首合成單兀26基于首尚設(shè)置單兀24所廣生的首尚過渡C來調(diào)整由片段選擇單元22順序地選擇的各語音片段P的音高，并且將已調(diào)整的各個語音片段P在時間軸上彼此連結(jié)，從而產(chǎn)生聲音信號V。
[0028]根據(jù)第一實施例的音高設(shè)置單元24對音高過渡C進(jìn)行設(shè)置，在所述音高過渡C中，音素相關(guān)變動(所述音高在短時間段內(nèi)根據(jù)聲產(chǎn)生目標(biāo)的因素而變動)被反映在不會被收聽者感知為走調(diào)的范圍內(nèi)。圖2是音高設(shè)置單元24的具體框圖。如圖2所示，根據(jù)第一實施例的音高設(shè)置單元24包括基礎(chǔ)設(shè)置過渡單元32、變動產(chǎn)生單元34以及變動添加單元36。
[0029]基礎(chǔ)過渡設(shè)置單元32設(shè)置音高的暫時性過渡(下面被稱作“基礎(chǔ)過渡”)B，所述音高的暫時性過渡對應(yīng)于由合成信息S針對每個音符而指定的音高X1?？刹捎萌魏我阎挠糜谠O(shè)置基礎(chǔ)過渡B的方法。具體地，設(shè)置所述基礎(chǔ)過渡B，以使得所述音高在時間軸上彼此相鄰的音符之間不斷變動。換言之，基礎(chǔ)過渡B對應(yīng)于形成目標(biāo)歌曲的旋律的多個音符之中的音高的粗略軌跡。在參考聲音中觀測到的音高的變動(例如，音素相關(guān)變動)并不反映在基礎(chǔ)過渡B中。
[0030]變動產(chǎn)生單元34產(chǎn)生變動分量A，其表示音素相關(guān)變動。具體地，根據(jù)第一實施例的變動產(chǎn)生單元34產(chǎn)生變動分量A，使得由片段選擇單元22順序地選擇的語音片段P中所包含的音素相關(guān)變動被反映在變動分量A中。另一方面，在各個語音片段P中，除音素相關(guān)變動之外的音高變動(具體地，會被收聽者感知為走調(diào)的音高變動)未被反映在變動分量A中。[0031 ] 變動添加單元36通過將變動產(chǎn)生單元34所產(chǎn)生的變動分量A添加至基礎(chǔ)過渡設(shè)置單元32所設(shè)置的基礎(chǔ)過渡B來產(chǎn)生音高過渡C。因此，產(chǎn)生了音高過渡C，在該音高過渡C中反映了各個語音片段P的音素相關(guān)變動。
[0032]相比于除音素相關(guān)變動之外的變動(下面被稱作“錯誤變動”)，音素相關(guān)變動大略傾向于展現(xiàn)音高的較大變動量?？紤]到上述趨勢，在第一實施例中，各語音片段P之中展現(xiàn)出與參考音高Fr的較大音高差(隨后描述為差值D)的區(qū)段中的音高變動被估計為音素相關(guān)變動，并且被反映在音高過渡C中，而展現(xiàn)出與參考音高Fr的較小音高差的區(qū)段中的音高變動被估計為除音素相關(guān)變動之外的錯誤變動，并且不被反映在音高過渡C中。
[0033]如圖2所示，根據(jù)第一實施例的變動產(chǎn)生單元34包括音高分析單元42和變動分析單元44。音高分析單元42順序地識別片段選擇單元22所選擇的每個語音片段P的音高Fv(下面被稱作“觀測音高”)。按照足夠短于語音片段P的時間長度的周期，順序地識別觀測音高Fv。可采用任何已知的音高檢測技術(shù)來識別觀測音高Fv。
[0034]圖3是用于示出觀測音高Fv與參考音高Fr(_700森特(cent))之間的關(guān)系的曲線圖，為了方便起見，通過假設(shè)以西班牙語發(fā)出的參考聲音的多個音素的時間序列([n]、[a]、[B]、[D]和[ο])來示出所述關(guān)系。在圖3中，為了方便起見，還示出了參考聲音的聲音波形。參照圖3，可確認(rèn)這樣的趨勢:觀測音高Fv以各音素之中不同的音級降至參考音高Fr之下。具體地，在音素[B]和[D]作為發(fā)聲的輔音的各個區(qū)段中，相比于音素[η]作為另一個發(fā)聲的輔音以及音素[a]或[O]作為元音的區(qū)段，觀測音高Fv相對于參考音高Fr的變動可以更加明顯地觀測到。音素[B]和[D]的區(qū)段中的觀測音高Fv的變動為音素相關(guān)變動，而音素[n]、[a]和
[O]的區(qū)段中的觀測音高Fv的變動為錯誤變動。換言之，還可從圖3中確認(rèn)上文提到的這一趨勢:音素相關(guān)變動比錯誤變動展現(xiàn)出更大的變動量。
[0035]圖2所示的變動分析單元44產(chǎn)生當(dāng)語音片段P的音素相關(guān)變動被估計時獲得的變動分量A。具體地，根據(jù)第一實施例的變動分析單元44計算存儲在存儲裝置14中的參考音高Fr與由音高分析單元42識別的觀測音高Fv之間的差值D(D = Fr-Fv),并且將差值D乘以調(diào)整值α，從而產(chǎn)生變動分量A(A = aD = a(FR_Fv))。根據(jù)第一實施例的變動分析單元44根據(jù)差值D可變地設(shè)置調(diào)整值a，以重現(xiàn)上文提到的這一趨勢:將展現(xiàn)出較大差值D的區(qū)段中的音高變動估計為音素相關(guān)變動并且將其反映在音高過渡C中，而將展現(xiàn)出較小差值D的區(qū)段中的音高變動估計為除音素相關(guān)變動之外的錯誤變動并且未將其反映在音高過渡C中。簡言之，變動分析單元44計算調(diào)整值a，使得調(diào)整值a隨著差值D變大(S卩，音高變動更有可能是音素相關(guān)變動)而增加(即，音高變動更為主導(dǎo)地反映在音高過渡C中)。
[0036]圖4是用于示出差值D和調(diào)整值a之間的關(guān)系的曲線圖。如圖4所示，差值D的數(shù)值范圍被分為第一范圍R1、第二范圍R2和第三范圍R3,其中以預(yù)定閾值Dth1和預(yù)定閾值Dth2設(shè)為邊界。閾值Dth2是超過閾值Dthi的預(yù)定值。第一范圍Ri是降至閾值Dthi以下的范圍，第二范圍R2是超過閾值Dth2的范圍。第三范圍R3是閾值Dthi與閾值Dth2之間的范圍。經(jīng)驗性地或統(tǒng)計地預(yù)先選擇閾值Dthi和閾值DTH2，使得差值D在觀測音高Fv的變動是音素相關(guān)變動時成為第二范圍R2內(nèi)的數(shù)值，并且差值D在觀測音高Fv的變動是除音素相關(guān)變動之外的錯誤變動時成為第一范圍Ri內(nèi)的數(shù)值。在圖4的示例中，假設(shè)這樣的情況，其中將閾值Dthi設(shè)為近似170森特，并將閾值Dth2設(shè)為近似220森特。當(dāng)差值D為200森特(在第三范圍R3內(nèi))時，調(diào)整值a被設(shè)為0.6。
[0037]如同根據(jù)圖4理解的那樣，當(dāng)參考音高Fr與觀測音高Fv之間的差值D是第一范圍R1內(nèi)的數(shù)值(即，當(dāng)觀測音高Fv的變動被估計為錯誤變動)時，將調(diào)整值a設(shè)為最小值O。另一方面，當(dāng)差值D是第二范圍R2內(nèi)的數(shù)值(即，當(dāng)觀測音高Fv的變動被估計為音素相關(guān)變動)時，將調(diào)整值a設(shè)為最大值I。此外，當(dāng)差值D是第三范圍R3內(nèi)的數(shù)值時，將調(diào)整值a設(shè)為在大于或等于O且小于或等于I的范圍內(nèi)的對應(yīng)于差值D的值。具體地，調(diào)整值a與第三范圍R3內(nèi)的差值D成正比。
[0038]如上所述，根據(jù)第一實施例的變動分析單元44通過將差值D與上述條件下設(shè)置的調(diào)整值a相乘而產(chǎn)生變動分量A。因此，當(dāng)差值D是第一范圍R1內(nèi)的數(shù)值時將調(diào)整值a設(shè)為最小值0，從而使變動分量A為0，并且禁止觀測音高Fv的變動(錯誤變動)被反映在音高過渡C中。另一方面，當(dāng)差值D是第二范圍R2內(nèi)的數(shù)值時將調(diào)整值a設(shè)為最大值I，從而產(chǎn)生與觀測音高Fv的音素相關(guān)變動相對應(yīng)的差值D作為變動分量A，其結(jié)果為觀測音高Fv的變動被反映在音高過渡C中。如同根據(jù)以上描述理解的那樣，調(diào)整值a的最大值I意指觀測音高Fv的變動被反映在變動分量A中(作為音素相關(guān)變動而被提取)，而調(diào)整值a的最小值O意指觀測音高Fv的變動未被反映在變動分量A中(作為錯誤變動而被忽略)。注意的是，就元音音素而言，觀測音高Fv與參考音高Fr之間的差值D降至閾值Dthi以下。因此，元音的觀測音高Fv的變動(除音素相關(guān)變動之外的變動)未被反映在音高過渡C中。
[0039]圖2所示的變動添加單元36通過將由變動產(chǎn)生單元34(變動分析單元44)根據(jù)上述過程產(chǎn)生的變動分量A添加至基礎(chǔ)過渡B來產(chǎn)生音高過渡C。具體地，根據(jù)第一實施例的變動添加單元36從基礎(chǔ)過渡B中減去變動分量A，從而產(chǎn)生音高過渡C(C = B-A)。在圖3中，同時用虛線表示在為方便起見而將基礎(chǔ)過渡B假設(shè)為參考音高Fr時獲得的音高過渡C。如同根據(jù)圖3理解的那樣，在音素[n]、[a]和[O]的各區(qū)段的大部分中，參考音高Fr與觀測音高Fv之間的差值D降至閾值Dthi以下，因此在音高過渡C中，觀測音高Fv的變動(即，錯誤變動)得到充分抑制。另一方面，在音素[B]和[D]的各區(qū)段的大部分中，差值D超過閾值DTH2，因此觀測音高Fv的變動(即，音素相關(guān)變動)也在音高過渡C中如實保持。如同根據(jù)以上描述理解的那樣，根據(jù)第一實施例的音高設(shè)置單元24設(shè)置音高過渡C，使得與差值D是第一范圍R1內(nèi)的數(shù)值時相比，語音片段P的觀測音高Fv的變動所反映的音級在差值D是第二范圍1?2內(nèi)的數(shù)值時變得更大。
[0040]圖5是變動分析單元44的操作的流程圖。每當(dāng)音高分析單元42對由片段選擇單元22順序地選擇的每個語音片段P的觀測音高Fv進(jìn)行識別時，執(zhí)行圖5所示的過程。當(dāng)圖5所示的過程開始時，變動分析單元44計算存儲在存儲裝置14中的參考音高Fr與由音高分析單元42識別的觀測音高Fv之間的差值D(SI)。
[0041]變動分析單元44設(shè)置對應(yīng)于差值D的調(diào)整值a(S2)。具體地，在存儲裝置14中存儲參照圖4描述的用于表不差值D與調(diào)整值a之間的關(guān)系的函數(shù)(諸如閾值Dthi和閾值Dth2之類的變量)，并且變動分析單元44使用存儲在存儲裝置14中的函數(shù)來設(shè)置對應(yīng)于差值D的調(diào)整值a。然后，變動分析單元44將差值D乘以調(diào)整值a，從而產(chǎn)生變動分量A(S3)。
[0042]如上所述，在第一實施例中，設(shè)置音高過渡C，在所述音高過渡C中利用與參考音高Fr和觀測音高Fv之間的差值D相對應(yīng)的音級來反映觀測音高Fv的變動，因而可產(chǎn)生如實重現(xiàn)參考聲音的音素相關(guān)變動的音高過渡，同時減少了合成的聲音會被感知為走調(diào)的擔(dān)憂。特別地，第一實施例的有利之處在于:由于將變動分量A添加至與通過合成信息S在時間序列中指定的音高X1相對應(yīng)的基礎(chǔ)過渡B，因此可在保持目標(biāo)歌曲的旋律的同時重現(xiàn)音素相關(guān)變動。
[0043]此外，第一實施例實現(xiàn)了以下顯著效果:可通過諸如將要應(yīng)用于調(diào)整值a的設(shè)置的差值D乘以調(diào)整值a之類的簡單過程，來產(chǎn)生變動分量A。特別地，在第一實施例中，設(shè)置調(diào)整值a，以使其在差值D在第一范圍R1內(nèi)時變?yōu)樽钚≈礝，使其在差值D在第二范圍R2內(nèi)時變?yōu)樽畲笾礗，并且使其在差值D在第一范圍與第二范圍之間的第三范圍R3內(nèi)時變?yōu)楦鶕?jù)差值D而變動的數(shù)值，因此與例如將包括指數(shù)函數(shù)的多種函數(shù)應(yīng)用于調(diào)整值a的設(shè)置的配置相比，上文提及的效果為變動分量A的產(chǎn)生過程變得更為簡單。
[0044]〈第二實施例〉
[0045]將描述本發(fā)明的第二實施例。注意的是，在下文示出的每個實施例中，具有與第一實施例中的組件的行為或功能相同的行為或功能的組件同樣用第一實施例的描述所用的附圖標(biāo)記表示，并且適當(dāng)?shù)厥÷粤讼鄳?yīng)組件的詳細(xì)描述。
[0046]圖6是根據(jù)第二實施例的音高設(shè)置單元24的框圖。如圖6所示，通過將平滑處理單元45添加至根據(jù)第一實施例的變動產(chǎn)生單元34來配置根據(jù)第二實施例的音高設(shè)置單元24。平滑處理單元46在時間軸上對變動分析單元44所產(chǎn)生的變動分量A進(jìn)行平滑化?？刹捎萌魏我阎夹g(shù)來對變動分量A進(jìn)行平滑化(抑制暫時性變動)。另一方面，變動添加單元36通過將已被平滑處理單元46平滑化的變動分量A添加至基礎(chǔ)過渡B來產(chǎn)生音高過渡C。
[0047]在圖7中，假設(shè)與圖3所示的音素相同的音素的時間序列，并且以虛線表示每個語音片段P的觀測音高Fv被根據(jù)第一實施例的變動分量A校正的音級(校正量)的時間變化。換言之，圖7的縱軸所表示的校正量對應(yīng)于參考聲音的觀測音高Fv與在基礎(chǔ)過渡B保持在參考音高Fr時獲得的音高過渡C之間的差值。因此，如圖3與圖7的對比中的理解，在被估計為展現(xiàn)錯誤變動的音素[n]、[a]和[O]的區(qū)段中校正量增加，而在被估計為展現(xiàn)音素相關(guān)變動的音素[B]和[D]的區(qū)段中校正量被抑制到接近O。
[0048]如圖7所示，在第一實施例的配置中，校正量會緊隨每個音素的起始點之后急劇變動，這會使人擔(dān)心重現(xiàn)聲音信號V的合成的聲音可能被感知為帶給聽眾不自然的感覺。另一方面，圖7的實線對應(yīng)于根據(jù)第二實施例的校正量的時間變化。如根據(jù)圖7的理解，在第二實施例中，平滑處理單元46對變動分量A進(jìn)行平滑化，從而與第一實施例相比更大程度地抑制了音高過渡C的驟然變動。這帶來了以下優(yōu)點:減少了合成的聲音可能被感知為帶給聽眾不自然的感覺的擔(dān)憂。
[0049]〈第三實施例〉
[0050]圖8是用于示出根據(jù)本發(fā)明第三實施例的差值D與調(diào)整值α之間的關(guān)系的曲線圖。如圖8中的箭頭所示，根據(jù)第三實施例的變動分析單元可變地對確定差值D的范圍的閾值Dthi和閾值Dth2進(jìn)行設(shè)置。如同根據(jù)第一實施例的描述理解的那樣，調(diào)整值α可能會隨著閾值Dth1和閾值Dth2變小而被設(shè)置為更大的數(shù)值(例如，最大值I)，從而使語音片段P的觀測音高Fv的變動(音素相關(guān)變動)變得更有可能被反映在音高過渡C中。另一方面，調(diào)整值α可能會隨著閾值Dthi和閾值Dth2變大而被設(shè)置為更小的數(shù)值(例如，最小值O)，從而使語音片段P的觀測音高Fv的變動變得更不可能被反映在音高過渡C中。
[0051]順便提及，取決于音素類型，被聽眾感知為走調(diào)(五音不全)的音級存在差異。例如，存在這樣的趨勢:只要當(dāng)音高相比于目標(biāo)歌曲的原始音高X1稍有差異時，諸如音素[η]的發(fā)聲的輔音就會被感知為走調(diào)；而即使當(dāng)音高相比于原始音高X1存在差異時，諸如音素[V]、[ ζ ]和[j ]的發(fā)聲的摩擦音幾乎不會被感知為走調(diào)。
[0052]考慮到聽眾感知特性取決于音素類型的差異，根據(jù)第三實施例的變動分析單元44依據(jù)由片段選擇單元22順序地選擇的語音片段P的每個音素的類型，可變地設(shè)置差值D與調(diào)整值α之間的關(guān)系(具體地，閾值Dth1和閾值DTH2)。具體地，就傾向于被感知為走調(diào)的那類音素(例如，[η])而言，通過將閾值Dth1和閾值Dth2設(shè)置為較大的數(shù)值，使在音高過渡C中觀測音高Fv的變動(錯誤變動)所反映的音級減小。同時，就傾向于很難被感知為走調(diào)的那類音素(例如，[v]、[z]或[j])而言，通過將閾值Dth1和閾值Dth2設(shè)置為較小的數(shù)值，使在音高過渡C中觀測音高Fv的變動(音素相關(guān)變動)所反映的音級增加?？赏ㄟ^變動分析單元44參照例如被添加至語音片段組L的每個語音片段P的屬性信息(用于指定每個音素的類型的信息)來識別形成語音片段P的每個音素的類型。
[0053]另外，在第三實施例中，實現(xiàn)了與第一實施例相同的效果。此外，在第三實施例中，可變地控制差值D與調(diào)整值α之間的關(guān)系，這帶來了以下優(yōu)點:在音高過渡C中反映每個語音片段P的觀測音高Fv的變動的音級可以被適當(dāng)?shù)卣{(diào)整。此外，在第三實施例中，根據(jù)語音片段P的每個音素的類型來控制差值D與調(diào)整值α之間的關(guān)系，因而可如實重現(xiàn)參考聲音的音素相關(guān)變動，同時顯著減少了被合成的聲音會被感知為走調(diào)的擔(dān)憂。注意的是，第二實施例的配置可應(yīng)用于第三實施例。
[0054]〈修改例〉
[0055]可按各種不同的方式修改以上示出的每個實施例。下面示出了具體修改的各個實施例。還可以適當(dāng)?shù)亟M合從下面的示例中任意選擇的至少兩個實施例。
[0056](I)在上述每個實施例中，示出了音高分析單元42對每個語音片段P的觀測音高Fv進(jìn)行識別的配置，但是觀測音高Fv可針對每個語音片段P預(yù)先存儲在存儲裝置14中。在觀測音高Fv存儲在存儲裝置14的配置中，可省略上述每個實施例中示出的音高分析單元42。
[0057](2)在上述每個實施例中，示出了調(diào)整值α根據(jù)差值D以直線變動，但是差值D與調(diào)整值α之間的關(guān)系可以任意設(shè)置。例如，可采用調(diào)整值α相對于差值D以曲線變動的配置?？梢匀我飧淖冋{(diào)整值α的最大值和最小值。此外，在第三實施例中，可根據(jù)語音片段P的音素類型來控制差值D與調(diào)整值α之間的關(guān)系，但是變動分析單元44可基于例如用戶給出的指令來改變差值D與調(diào)整值α之間的關(guān)系。
[0058](3)還可利用用于通過通信網(wǎng)絡(luò)(例如移動通信網(wǎng)絡(luò)或互聯(lián)網(wǎng))向/從終端裝置通信的服務(wù)器裝置來實現(xiàn)聲音合成裝置100。具體地，從終端裝置通過通信網(wǎng)絡(luò)接收的聲音合成信息S按照與第一實施例相同的方式指定合成的聲音，聲音合成裝置100產(chǎn)生該合成的聲音的聲音信號V，并將聲音信號V通過通信網(wǎng)絡(luò)發(fā)送至終端裝置。此外，例如，可采用以下配置:語音片段組L被存儲在與聲音合成裝置100分離提供的服務(wù)器裝置中，并且聲音合成裝置100從服務(wù)器裝置獲取對應(yīng)于合成信息S內(nèi)的聲產(chǎn)生細(xì)節(jié)X3的每個語音片段P。換言之，聲音合成裝置100持有語音片段組L的配置并不是必要的。
[0059]注意的是，根據(jù)本發(fā)明優(yōu)選模式的聲音合成裝置是被配置為通過提取自參考聲音的語音片段的連接而產(chǎn)生聲音信號的聲音合成裝置，所述聲音合成裝置包括:片段選擇單元，其被配置為順序地選擇所述語音片段;音高設(shè)置單元，其被配置為設(shè)置音高過渡，在所述音高過渡中，根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應(yīng)的音級，來反映所述語音片段的觀測音高的變動；以及聲音合成單元，其被配置為通過根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過渡而調(diào)整所述片段選擇單元所選擇的語音片段的音高，來產(chǎn)生所述聲音信號。在上述配置中，設(shè)置這樣的音高轉(zhuǎn)換:在其中利用與參考音高和語音片段的觀測音高之間的差值相對應(yīng)的音級來反映語音片段的觀測音高的變動，所述參考音高為參考聲音的聲產(chǎn)生的參考。例如，音高設(shè)置單元設(shè)置所述音高過渡，以使得與所述差值為特定數(shù)值的情況相比，在所述音高過渡中所述語音片段的觀測音高的變動所反映的音級在所述差值超過所述特定數(shù)值時變大。這帶來了以下優(yōu)點:能夠產(chǎn)生重現(xiàn)音素相關(guān)變動的音高過渡，同時減少了對被聽眾感知為走調(diào)(即，五音不全)的擔(dān)憂。
[0060]在本發(fā)明的優(yōu)選模式中，音高設(shè)置單元包括:基礎(chǔ)過渡設(shè)置單元，其被配置為設(shè)置基礎(chǔ)過渡，所述基礎(chǔ)過渡對應(yīng)于待合成的目標(biāo)的音高的時間序列;變動產(chǎn)生單元，其被配置為通過將參考音高與觀測音高之間的差值乘以與參考音高與所述觀測音高之間的差值相對應(yīng)的調(diào)整值，來產(chǎn)生變動分量；以及變動添加單元，其被配置為將所述變動分量添加至所述基礎(chǔ)過渡。在上述模式中，通過將所述差值乘以與參考音高和觀測音高之間的差值相對應(yīng)的調(diào)整值而獲得的變動分量被添加至與待合成的目標(biāo)的音高的時間序列相對應(yīng)的基礎(chǔ)過渡，這帶來了以下優(yōu)點:可在保持待合成目標(biāo)的音高過渡(例如，歌曲的旋律)的同時重現(xiàn)音素相關(guān)變動。
[0061]在本發(fā)明的優(yōu)選模式中，變動產(chǎn)生單元設(shè)置調(diào)整量，以使其在所述差值為降至第一閾值以下的第一范圍內(nèi)的數(shù)值時成為最小值，使其在所述差值為超過第二閾值(其大于第一閾值)的第二范圍內(nèi)的數(shù)值時成為最大值，并且使其在所述差值為處于第一閾值與第二閾值之間的數(shù)值時成為根據(jù)不同的差值而在最小值與最大值之間的范圍內(nèi)變動的數(shù)值。在上述模式中，以簡單的方式定義差值與調(diào)整值之間的關(guān)系，這帶來了使調(diào)整值的設(shè)置(即，變動分量的產(chǎn)生)簡化的優(yōu)點。
[0062]在本發(fā)明的優(yōu)選模式中，變動產(chǎn)生單元包括被配置為對變動分量進(jìn)行平滑化的平滑處理單元，并且變動添加單元將已平滑化的變動分量添加至基礎(chǔ)過渡。在上述模式中，對變動分量進(jìn)行平滑化，從而合成的聲音的音高的驟然變動被抑制。這帶來了以下優(yōu)點:可產(chǎn)生帶給聽眾自然感覺的合成的聲音。例如，上述模式的具體示例在上文中被描述為第二實施例。
[0063]在本發(fā)明的優(yōu)選模式中，變動產(chǎn)生單元可變地控制差值與調(diào)整值之間的關(guān)系。具體地，變動產(chǎn)生單元根據(jù)片段選擇單元所選擇的語音片段的音素類型來控制差值與調(diào)整值之間的關(guān)系。上述模式帶來了以下優(yōu)點:可以適當(dāng)?shù)卣{(diào)整在音高過渡中反映各語音片段的觀測音高的變動的音級。例如，上述模式的具體示例在上文中被描述為第三實施例。
[0064]根據(jù)上述每個實施例的聲音合成裝置通過諸如數(shù)字信號處理器(DSP)的硬件(電子電路)實現(xiàn)，并且還可以以通用處理器單元(例如中央處單元(CPU))與程序合作的方式實現(xiàn)。根據(jù)本發(fā)明的程序可通過以存儲在計算機(jī)可讀記錄介質(zhì)中的形式提供而安裝在計算機(jī)上。例如，所述記錄介質(zhì)為非暫時性存儲器，其優(yōu)選示例包括諸如CD-ROM的光學(xué)記錄介質(zhì)(光盤)，并且可包含任意格式的已知記錄介質(zhì)，例如半導(dǎo)體記錄介質(zhì)或磁性記錄介質(zhì)。例如，根據(jù)本發(fā)明的程序可通過以在通信網(wǎng)絡(luò)上分布的形式提供而安裝在計算機(jī)上。此外，本發(fā)明還可被定義為根據(jù)上述每個實施例的聲音合成裝置的操作方法(聲音合成方法)。
[0065]雖然已經(jīng)描述了當(dāng)前被視為本發(fā)明特定實施例的內(nèi)容，但是應(yīng)當(dāng)理解，可對其進(jìn)行各種不同的修改，并且其意圖在于，所附權(quán)利要求將所有這樣的修改覆蓋為落入本發(fā)明的真實精神和范圍內(nèi)。
【主權(quán)項】
1.一種聲音合成方法，其用于通過提取自參考聲音的語音片段的連接而產(chǎn)生聲音信號，所述聲音合成方法包括: 由片段選擇單元順序地選擇所述語音片段；由音高設(shè)置單元設(shè)置音高過渡，在所述音高過渡中，根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應(yīng)的音級，來反映所述語音片段的觀測音高的變動；以及由聲音合成單元通過根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過渡而調(diào)整所述片段選擇單元所選擇的語音片段的音高，來產(chǎn)生所述聲音信號。2.根據(jù)權(quán)利要求1所述的聲音合成方法，其中，所述音高過渡的設(shè)置包括:對所述音高過渡進(jìn)行設(shè)置，使得與所述差值為特定數(shù)值的情況相比，在所述音高過渡中所述語音片段的觀測音高的變動所反映的音級在所述差值超過所述特定數(shù)值時變大。3.根據(jù)權(quán)利要求1所述的聲音合成方法，其中，所述音高過渡的設(shè)置包括: 由基礎(chǔ)過渡設(shè)置單元設(shè)置基礎(chǔ)過渡，所述基礎(chǔ)過渡對應(yīng)于待合成的目標(biāo)的音高的時間序列；由變動產(chǎn)生單元通過將所述參考音高與所述觀測音高之間的差值和與所述參考音高與所述觀測音高之間的差值相對應(yīng)的調(diào)整值相乘，來產(chǎn)生變動分量;以及由變動添加單元將所述變動分量添加至所述基礎(chǔ)過渡。4.根據(jù)權(quán)利要求3所述的聲音合成方法，其中，所述變動分量的產(chǎn)生包括:當(dāng)所述差值為低于第一閾值的第一范圍內(nèi)的數(shù)值時，對所述調(diào)整值進(jìn)行設(shè)置以使其成為最小值；當(dāng)所述差值為超過比所述第一閾值更大的第二閾值的第二范圍內(nèi)的數(shù)值時，對所述調(diào)整值進(jìn)行設(shè)置以使其成為最大值；以及當(dāng)所述差值為所述第一閾值與所述第二閾值之間的數(shù)值時，對所述調(diào)整值進(jìn)行設(shè)置，以使其成為根據(jù)所述最小值與所述最大值之間的范圍內(nèi)的差值而變動的數(shù)值。5.根據(jù)權(quán)利要求3所述的聲音合成方法，其中: 所述變動分量的產(chǎn)生包括:由平滑處理單元對所述變動分量進(jìn)行平滑化;并且所述變動分量的添加包括:將已平滑化的變動分量添加至所述基礎(chǔ)過渡。6.一種聲音合成裝置，其被配置為通過提取自參考聲音的語音片段的連接而產(chǎn)生聲音信號，所述聲音合成裝置包括: 片段選擇單元，其被配置為順序地選擇所述語音片段；音高設(shè)置單元，其被配置為設(shè)置音高過渡，在所述音高過渡中，根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應(yīng)的音級，來反映所述語音片段的觀測音高的變動；以及聲音合成單元，其被配置為通過根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過渡而調(diào)整所述片段選擇單元所選擇的語音片段的音高，來產(chǎn)生所述聲音信號。7.根據(jù)權(quán)利要求6所述的聲音合成裝置，其中，所述音高設(shè)置單元還被配置為:對所述音高過渡進(jìn)行設(shè)置，使得與所述差值為特定數(shù)值的情況相比，在所述音高過渡中所述語音片段的觀測音高的變動所反映的音級在所述差值超過所述特定數(shù)值時變大。8.根據(jù)權(quán)利要求6所述的聲音合成裝置，其中，所述音高設(shè)置單元包括: 基礎(chǔ)過渡設(shè)置單元，其被配置為設(shè)置基礎(chǔ)過渡，所述基礎(chǔ)過渡對應(yīng)于待合成的目標(biāo)的首尚的時間序列；變動產(chǎn)生單元，其被配置為通過將所述參考音高與所述觀測音高之間的差值和與所述參考音高與所述觀測音高之間的差值相對應(yīng)的調(diào)整值相乘，來產(chǎn)生變動分量;以及變動添加單元，其被配置為將所述變動分量添加至所述基礎(chǔ)過渡。9.根據(jù)權(quán)利要求8所述的聲音合成裝置，其中，所述變動產(chǎn)生單元還被配置為:當(dāng)所述差值為低于第一閾值的第一范圍內(nèi)的數(shù)值時，將所述調(diào)整值設(shè)置為最小值；當(dāng)所述差值為超過比所述第一閾值更大的第二閾值的第二范圍內(nèi)的數(shù)值時，將所述調(diào)整值設(shè)置為最大值；以及當(dāng)所述差值為處于所述第一閾值與所述第二閾值之間的數(shù)值時，將所述調(diào)整值設(shè)置為根據(jù)所述最小值與所述最大值之間的范圍內(nèi)的差值而變動的數(shù)值。10.根據(jù)權(quán)利要求8所述的聲音合成裝置，其中: 所述變動產(chǎn)生單元包括平滑處理單元，該平滑處理單元被配置為對所述變動分量進(jìn)行平滑化;并且所述變動添加單元還被配置為將已平滑化的變動分量添加至所述基礎(chǔ)過渡。11.一種存儲聲音合成程序的非暫時性計算機(jī)可讀記錄介質(zhì)，所述聲音合成程序用于通過提取自參考聲音的語音片段的連接而產(chǎn)生聲音信號，所述程序使得計算機(jī)充當(dāng): 片段選擇單元，其被配置為順序地選擇所述語音片段；音高設(shè)置單元，其被配置為設(shè)置音高過渡，在所述音高過渡中，根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應(yīng)的音級，來反映所述語音片段的觀測音高的變動；以及聲音合成單元，其被配置為通過根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過渡而調(diào)整所述片段選擇單元所選擇的語音片段的音高，來產(chǎn)生所述聲音信號。
【文檔編號】G10L13/02GK105957515SQ201610124952
【公開日】2016年9月21日
【申請日】2016年3月4日
【發(fā)明人】才野慶二郎, 若爾迪·博納達(dá), 梅利因·布洛烏
【申請人】雅馬哈株式會社

完整全部詳細(xì)技術(shù)資料下載