本發(fā)明涉及語(yǔ)音識(shí)別和聲紋識(shí)別技術(shù)領(lǐng)域,尤其涉及一種文字直播方法及平臺(tái)。
背景技術(shù):
目前,對(duì)直播過(guò)程一般以人工的方式將語(yǔ)音轉(zhuǎn)換為文字,即相關(guān)工作人員將聽(tīng)到的發(fā)言人的語(yǔ)音轉(zhuǎn)換為文字,例如:有主持人、嘉賓、采訪者和被訪者,將各自說(shuō)話的語(yǔ)音轉(zhuǎn)為文字,并直播每句話是某個(gè)人說(shuō)的。這種方式需要耗費(fèi)大量的人力成本,并且受限于速度,很大可能出現(xiàn)轉(zhuǎn)換前一句話時(shí),沒(méi)有辦法集中精力聽(tīng)下一句話,造成漏播、錯(cuò)播,使文字直播效率低下。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明實(shí)施例期望提供一種文字直播方法及平臺(tái),能將直播過(guò)程中發(fā)言者的語(yǔ)音轉(zhuǎn)換為有序的文字,并識(shí)別出文字的歸屬者,提高文字直播效率,節(jié)省人力物力。
為達(dá)到上述目的,本發(fā)明實(shí)施例提供了一種文字直播方法:
將直播的語(yǔ)音音頻進(jìn)行語(yǔ)音識(shí)別,生成有序文字;
根據(jù)預(yù)先設(shè)置的聲紋特征確定所生成的有序文字的歸屬;
生成有序的包含歸屬者的文字作為直播文字。
其中,所述將直播的語(yǔ)音音頻進(jìn)行語(yǔ)音識(shí)別,生成有序文字包括:將語(yǔ)音音頻轉(zhuǎn)換為文字,并根據(jù)直播的語(yǔ)音音頻中發(fā)言者的對(duì)話順序確定轉(zhuǎn)換后的文字順序,將按對(duì)話順序排序的文字作為有序文字。
其中,所述根據(jù)預(yù)先設(shè)置的聲紋特征確定所生成的有序文字的歸屬之前,所述方法還包括:
對(duì)直播的語(yǔ)音音頻中的各個(gè)發(fā)言者進(jìn)行聲紋特征提取,所述聲紋特征包括:聲學(xué)特征、詞法特征、韻律特征、語(yǔ)種、方言和口音特征。
其中,所述根據(jù)預(yù)先設(shè)置的聲紋特征確定所生成有序文字的歸屬,包括:
將所述提取的聲紋特征與語(yǔ)音音頻中的發(fā)言者形成對(duì)應(yīng)關(guān)系,確定直播的語(yǔ)音音頻中當(dāng)前語(yǔ)音音頻的歸屬,確定所述有序文字的歸屬。
本發(fā)明實(shí)施例還提供了一種文字直播平臺(tái),包括:
語(yǔ)音識(shí)別模塊,用于將直播的語(yǔ)音音頻進(jìn)行語(yǔ)音識(shí)別,生成有序文字;
聲紋識(shí)別模塊,用于根據(jù)預(yù)先設(shè)置的聲紋特征確定所生成的有序文字的歸屬;
處理模塊,用于生成有序的包含歸屬者的文字作為直播文字。
其中,所述語(yǔ)音識(shí)別模塊具體用于:將語(yǔ)音音頻轉(zhuǎn)換為文字,并根據(jù)直播的語(yǔ)音音頻中發(fā)言者的對(duì)話順序確定轉(zhuǎn)換后的文字順序,將按對(duì)話順序排序的文字作為有序文字。
其中,所述聲紋識(shí)別模塊,還用于對(duì)直播的語(yǔ)音音頻中的各個(gè)發(fā)言者進(jìn)行聲紋特征提取。
其中,所述聲紋識(shí)別模塊具體用于:將所述提取的聲紋特征與語(yǔ)音音頻中的發(fā)言者形成對(duì)應(yīng)關(guān)系,確定直播的語(yǔ)音音頻中語(yǔ)音音頻的歸屬,確定所述有序文字的歸屬。
本發(fā)明實(shí)施例提供的文字直播方法及平臺(tái),將直播的語(yǔ)音音頻進(jìn)行語(yǔ)音識(shí)別,生成有序文字;根據(jù)預(yù)先設(shè)置的聲紋特征確定所生成的有序文字的歸屬,生成有序的包含歸屬者的文字作為直播文字。如此,能夠?qū)崟r(shí)將直播中發(fā)言者的語(yǔ)音音頻轉(zhuǎn)換為文字,并確定所述文字的歸屬者,再將生成的直播文字進(jìn)行展示,能提高文字直播效率,節(jié)省人力物力。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例文字直播方法實(shí)現(xiàn)流程示意圖;
圖2為本發(fā)明實(shí)施例文字直播平臺(tái)的組成結(jié)構(gòu)示意圖;
圖3為本發(fā)明實(shí)施例文字直播方法完整流程示意圖。
具體實(shí)施方式
圖1為本發(fā)明實(shí)施例文字直播方法實(shí)現(xiàn)流程示意圖,如圖1所示,本發(fā)明實(shí)施例文字直播方法包括以下步驟:
步驟101:將直播的語(yǔ)音音頻進(jìn)行語(yǔ)音識(shí)別,生成有序文字;
本步驟可采用現(xiàn)有的語(yǔ)音識(shí)別(Speech Recognize)技術(shù)識(shí)別語(yǔ)音音頻,所謂語(yǔ)音識(shí)別技術(shù),是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程,使其能聽(tīng)懂人類語(yǔ)言的技術(shù);語(yǔ)音識(shí)別技術(shù)是信息技術(shù)中人機(jī)交互的關(guān)鍵技術(shù),目前已經(jīng)在呼叫中心、電信增值業(yè)務(wù)、企業(yè)信息化系統(tǒng)中有著廣泛的應(yīng)用。
隨著語(yǔ)音識(shí)別在語(yǔ)音搜索、語(yǔ)音控制等全新應(yīng)用領(lǐng)域的深入應(yīng)用,語(yǔ)音識(shí)別技術(shù)被業(yè)界權(quán)威人士譽(yù)為有可能引發(fā)人機(jī)界面領(lǐng)域革命的關(guān)鍵技術(shù)。目前,語(yǔ)音識(shí)別技術(shù)已經(jīng)可以進(jìn)行針對(duì)長(zhǎng)時(shí)間音頻進(jìn)行語(yǔ)音轉(zhuǎn)換文字,再通過(guò)文字的信息服務(wù)特定的應(yīng)用。
具體語(yǔ)音識(shí)別工具,可以采用隱性馬爾科夫(HMM,Hidden Markov Model)模型,HMM模型是語(yǔ)音識(shí)別領(lǐng)域廣泛采用的統(tǒng)計(jì)學(xué)模型,能表示出語(yǔ)音信號(hào)的時(shí)變特征和隨機(jī)特征,能適應(yīng)各種變化的發(fā)音,進(jìn)而適合非特定人的大詞匯量連續(xù)語(yǔ)音的識(shí)別工作。
本步驟中,具體的,所述將直播的語(yǔ)音音頻進(jìn)行語(yǔ)音識(shí)別,生成有序文字包括:通過(guò)語(yǔ)音識(shí)別模塊將語(yǔ)音音頻轉(zhuǎn)換為文字,并根據(jù)直播的語(yǔ)音音頻中發(fā)言者的對(duì)話順序確定轉(zhuǎn)換后的文字順序,將按對(duì)話順序排好序的文字作為有序文字。
步驟102:根據(jù)預(yù)先設(shè)置的聲紋特征確定所生成的有序文字的歸屬;
本步驟之前,所述方法還包括:對(duì)直播的語(yǔ)音音頻中的各個(gè)發(fā)言者進(jìn)行聲紋特征提取,所述聲紋特征包括:聲學(xué)特征、詞法特征、韻律特征、語(yǔ)種、方言和口音特征;
特征提取的目的是:提取并選擇對(duì)發(fā)言者的聲紋具有可分性強(qiáng)、穩(wěn)定性高等特性的聲學(xué)或語(yǔ)言特征。與語(yǔ)音識(shí)別不同,聲紋識(shí)別的特征必須是個(gè)性化特征,而發(fā)言者語(yǔ)音識(shí)別的特征,對(duì)發(fā)言者來(lái)講必須是共性特征。
雖然,目前大部分聲紋識(shí)別系統(tǒng)用的都是聲學(xué)層面的特征,但是表征一個(gè)人特點(diǎn)的特征應(yīng)該是多層面的,包括:(1)與人類的發(fā)音機(jī)制的解剖學(xué)結(jié)構(gòu)有關(guān)的聲學(xué)特征(如頻譜、倒頻譜、共振峰、基音、反射系數(shù)等)、鼻音、帶深呼吸音、沙啞音、笑聲等;(2)受社會(huì)經(jīng)濟(jì)狀況、受教育水平、出生地等影響的語(yǔ)義、修辭、發(fā)音、言語(yǔ)習(xí)慣等;(3)個(gè)人特點(diǎn)或受父母影響的韻律、節(jié)奏、速度、語(yǔ)調(diào)、音量等特征。
從利用數(shù)學(xué)方法可以建模的角度出發(fā),聲紋自動(dòng)識(shí)別模型目前可以使用的特征包括:(1)聲學(xué)特征;(2)詞法特征;(3)韻律特征;(4)語(yǔ)種、方言和口音信息。因此,采集聲紋特征,應(yīng)該能夠有效地區(qū)分不同的發(fā)言者。
所述根據(jù)預(yù)先設(shè)置的聲紋特征確定所生成的有序文字的歸屬,包括:將所述提取的聲紋特征與語(yǔ)音音頻中的發(fā)言者形成對(duì)應(yīng)關(guān)系,確定直播的語(yǔ)音音頻中當(dāng)前語(yǔ)音音頻的歸屬,進(jìn)一步確定所述有序文字的歸屬。
在實(shí)際應(yīng)用中,聲紋識(shí)別可以有以下幾類方法:
模板匹配方法:利用動(dòng)態(tài)時(shí)間彎折以對(duì)準(zhǔn)訓(xùn)練和測(cè)試特征序列,主要用于固定詞組的應(yīng)用;
最近鄰方法:訓(xùn)練時(shí)保留所有特征矢量,識(shí)別時(shí)對(duì)每個(gè)矢量都找到訓(xùn)練矢量中最近的K個(gè),據(jù)此進(jìn)行識(shí)別,通常模型存儲(chǔ)和相似計(jì)算的量都很大;
神經(jīng)網(wǎng)絡(luò)方法:有很多種形式,如多層感知、徑向基函數(shù)等,可以顯式訓(xùn)練以區(qū)分發(fā)言者和其背景發(fā)言者,其訓(xùn)練量很大,且模型的可推廣性不好;
HMM方法:通常使用單狀態(tài)的HMM,或高斯混合模型,是比較流行的方法,效果比較好;
VQ聚類方法:效果比較好,算法復(fù)雜度也不高,和HMM方法配合起來(lái)更可以收到更好的效果;
多項(xiàng)式分類器方法:有較高的精度,但模型存儲(chǔ)和計(jì)算量都比較大。
步驟103:生成有序的包含歸屬者的文字作為直播文字;
根據(jù)步驟101和步驟102分別確定出了有序文字、以及文字的歸屬者,本步驟通過(guò)將上述內(nèi)容進(jìn)行編輯并進(jìn)行展示,如:主持人(這里顯示的是發(fā)言人的姓名):XXXXX(這里顯示的是發(fā)言內(nèi)容),將步驟103中語(yǔ)音識(shí)別出的有序文字之前加入步驟102中識(shí)別出的發(fā)言人的姓名,使用戶盡量真實(shí)的感受到直播過(guò)程。
圖2為本發(fā)明實(shí)施例文字直播平臺(tái)的組成結(jié)構(gòu)示意圖,如圖2所示,本發(fā)明實(shí)施例文字直播平臺(tái)包括:語(yǔ)音識(shí)別模塊201、聲紋識(shí)別模塊、處理模塊203;其中,
語(yǔ)音識(shí)別模塊201,用于將直播的語(yǔ)音音頻進(jìn)行語(yǔ)音識(shí)別,生成有序文字;
聲紋識(shí)別模塊202,用于根據(jù)預(yù)先設(shè)置的聲紋特征確定所生成的有序文字的歸屬;
處理模塊203,用于生成有序的包含歸屬者的文字作為直播文字;
其中,語(yǔ)音識(shí)別模塊201具體用于:將語(yǔ)音音頻轉(zhuǎn)換為文字,并根據(jù)直播的語(yǔ)音音頻中發(fā)言者的對(duì)話順序確定轉(zhuǎn)換后的文字順序,將按對(duì)話順序排好序的文字稱為有序文字;
所述聲紋識(shí)別模塊202,還用于對(duì)直播的語(yǔ)音音頻中的各個(gè)發(fā)言者進(jìn)行聲紋特征提取。
聲紋識(shí)別模塊202具體用于:將所述提取的聲紋特征與語(yǔ)音音頻中的發(fā)言者形成對(duì)應(yīng)關(guān)系,確定直播的語(yǔ)音音頻中語(yǔ)音音頻的歸屬,進(jìn)一步確定所述有序文字的歸屬。
圖3為本發(fā)明實(shí)施例文字直播方法完整流程示意圖,如圖3所示,本發(fā)明實(shí)施例文字直播方法完整流程包括以下步驟:
步驟301:輸入直播語(yǔ)音音頻;
這里,可將直播語(yǔ)音音頻輸入到本發(fā)明實(shí)施例文字所述的直播平臺(tái)中;
步驟302:進(jìn)行語(yǔ)音識(shí)別;
其中,語(yǔ)音識(shí)別過(guò)程包括:將直播的語(yǔ)音音頻進(jìn)行語(yǔ)音識(shí)別,生成有序文字;
在實(shí)際應(yīng)用中,對(duì)語(yǔ)音音頻進(jìn)行語(yǔ)音識(shí)別過(guò)程可以使用了數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、識(shí)別測(cè)試等方法進(jìn)行識(shí)別;其中,
數(shù)據(jù)準(zhǔn)備是用來(lái)將采集的語(yǔ)音文件轉(zhuǎn)換成可以被系統(tǒng)處理的用于訓(xùn)練的數(shù)據(jù)文件,包含:語(yǔ)音特征參數(shù)提取過(guò)程,主要提取語(yǔ)音的梅爾倒譜系數(shù)(MFCC,Mel-scale Frequency Cepstral Coefficients),其中,MFCC充分考慮的人耳的聽(tīng)覺(jué)特性,不僅能提高抗噪性能,而且能突出包含語(yǔ)音大部分信息的低頻部分,有利于提高語(yǔ)音識(shí)別性能,對(duì)于動(dòng)態(tài)性比較強(qiáng)的輔音,MFCC也可以能夠進(jìn)行很好的識(shí)別;
訓(xùn)練模型主要是基于Baum-Welch算法,在模型訓(xùn)練之前先確定隱馬爾科夫模型(HMM,Hidden Markov Model)的拓?fù)浣Y(jié)構(gòu),并以文本的形式進(jìn)行保存,然后對(duì)語(yǔ)音識(shí)別模塊建立HMM模型;
識(shí)別測(cè)試主要應(yīng)用Viterbi算法在語(yǔ)音識(shí)別單元中隊(duì)語(yǔ)音進(jìn)行識(shí)別;
整個(gè)語(yǔ)音識(shí)別過(guò)程就是在語(yǔ)音數(shù)據(jù)轉(zhuǎn)化之后,使用模型訓(xùn)練根據(jù)這些數(shù)據(jù)和相關(guān)的文本文件估計(jì)出HMM模型的參數(shù),根據(jù)這些訓(xùn)練產(chǎn)生的模型利用語(yǔ)音識(shí)別模塊將直播語(yǔ)音轉(zhuǎn)換成相應(yīng)的文字;
步驟303:進(jìn)行聲紋識(shí)別;
其中,聲紋識(shí)別過(guò)程包括:先對(duì)直播的語(yǔ)音音頻中的發(fā)言者進(jìn)行聲紋特征提取,將所述提取的聲紋特征與語(yǔ)音音頻中的發(fā)言者形成對(duì)應(yīng)關(guān)系,確定直播的語(yǔ)音音頻中語(yǔ)音音頻的歸屬,進(jìn)一步確定所述有序文字的歸屬。
步驟304:生成直播文字;
將步驟302和303確定出的有序文字以及文字的歸屬,生成直播文字進(jìn)行展示。
通過(guò)上述步驟,將直播的語(yǔ)音音頻進(jìn)行語(yǔ)音識(shí)別,生成有序文字;根據(jù)預(yù)先設(shè)置的聲紋特征確定所生成的有序文字的歸屬;生成有序的包含歸屬者的直播文字。如此,可以提高語(yǔ)音轉(zhuǎn)換文字直播的效率,同時(shí)還可以使收看者感受真實(shí)的直播過(guò)程。
以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。