最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于深度學習的智慧視聽設備多業(yè)務控制方法及系統(tǒng)與流程

文檔序號:11097788閱讀:384來源:國知局
一種基于深度學習的智慧視聽設備多業(yè)務控制方法及系統(tǒng)與制造工藝

本發(fā)明涉及智慧視聽設備多業(yè)務控制技術領域,尤其涉及一種基于深度學習的智慧視聽設備多業(yè)務控制方法及系統(tǒng)。



背景技術:

隨著物聯網和人工智能技術的進步,智慧視聽設備技術迅速發(fā)展。越來越多的智慧視聽設備被設計生產出來,實現了各種多媒體視聽業(yè)務,以滿足人們生活中的不同需求。由不同廠商設計生產的設備有著不同的控制和人機交互方式。這些設備可能采用紅外、藍牙、Z-wave等各種控制方式,以語音、動作、觸控等方式實現人機交互。智慧視聽設備控制和人機交互方式的不統(tǒng)一提高了用戶學習使用智慧視聽設備的門檻,且易造成用戶體驗不佳的問題。融合多種業(yè)務場景、為這些智慧視聽設備提供一種統(tǒng)一、輕松自然的控制和人機交互方式是一個亟待解決的問題。

深度學習是人工智能的子領域。近年來,隨著圖形處理器(Graphics Processing Unit,GPU)、云計算等技術的進步,深度學習理論研究取得了突破性進展。與此同時,深度學習技術的引入使得計算機視覺、語音識別等領域突飛猛進。這也為智慧視聽設備控制技術帶來了新的思路。

現有一種基于音頻和視頻的智能家居自然交互系統(tǒng)[1],使用麥克風和攝像頭采集聲音和圖像信息,使用信息融合模塊進行信號處理,然后使用機器學習方法獲取有用指令,再使用控制信號發(fā)射模塊發(fā)出控制信號。

該系統(tǒng)使用語音、手勢、人臉、動作多種等信息來進行控制,不能為用戶提供一種簡單統(tǒng)一的交互方式,造成用戶掌握系統(tǒng)使用的學習成本高,用戶體驗不佳等問題。其采用傳統(tǒng)機器學習方法來識別語音、圖像等多媒體信息,使得其識別率較低,系統(tǒng)健壯性較差。并且其語音、圖像識別程序運行于本地,這增加了用戶的硬件和能源成本。



技術實現要素:

本發(fā)明的目的在于克服現有技術的不足,本發(fā)明提供了一種基于深度學習的智慧視聽設備多業(yè)務控制方法及系統(tǒng),可控制多種基于不同控制協議、實現多種不同業(yè)務的智慧視聽設備,為它們提供一種更統(tǒng)一、更自然的人機交互和控制的方式。

為了解決上述問題,本發(fā)明提出了一種基于深度學習的智慧視聽設備多業(yè)務控制方法,所述方法包括:

麥克風陣列以特定頻率監(jiān)聽采集用戶發(fā)出的語音控制信號;

語音預處理模塊對語音控制信號進行提取,獲得梅爾倒譜系數(Mel-scale Frequency Cepstral Coefficients,MFCC)原始語音特征信息;檢測MFCC原始語音特征的對數能量是否大于閾值;若是,則由互聯網連接模塊發(fā)送MFCC原始語音特征信息到遠程圖形處理器(Graphics Processing Unit,GPU)服務器;

遠程GPU服務器接收到MFCC原始語音特征信息,根據MFCC原始語音特征信息獲得深度語音特征信息,并將深度特征信息對應的控制信號標識信息發(fā)送給互聯網連接模塊;

互聯網連接模塊將控制信號標識信息傳遞給控制信號解析模塊,由控制信號解析模塊根據控制信號標識信息生成控制信號編碼,選擇對應的控制信號輸出模塊,將控制信號編碼傳遞給該控制信號輸出模塊;

控制信號輸出模塊根據控制信號編碼發(fā)送控制信號給智慧視聽設備。

優(yōu)選地,所述語音預處理模塊對語音控制信號進行提取,獲得MFCC原始語音特征信息的步驟,包括:

對語音控制信號進行端點檢測及分割處理;

對分割處理后的語音控制信號進行降噪處理;

對降噪處理后的語音控制信號進行MFCC原始語音特征提取,獲得MFCC原始語音特征信息。

優(yōu)選地,所述遠程GPU服務器接收到MFCC原始語音特征信息,對MFCC原始語音特征信息進行深度語音特征提取,獲得深度語音特征信息的步驟,包括:

遠程GPU服務器接收到MFCC原始語音特征信息,啟動深度學習語音識別程序,采用雙向長短時記憶循環(huán)神經網絡(Bidirectional Long Short-Term Memory,biLSTM)算法對MFCC原始語音特征信息進行深度語音特征提取,獲得深度語音特征信息。

優(yōu)選地,所述遠程GPU服務器接收到MFCC原始語音特征信息,根據MFCC原始語音特征信息獲得深度語音特征信息,并將深度特征信息對應的控制信號標識信息發(fā)送給互聯網連接模塊的步驟,包括:

遠程GPU服務器接收到MFCC原始語音特征信息,對MFCC原始語音特征信息進行深度語音特征提取,獲得深度語音特征信息,并將深度特征信息對應的控制信號標識信息發(fā)送給互聯網連接模塊;

遠程GPU服務器對深度語音特征信息進行分類,得到該深度語音特征信息對應的類別,并檢測該類別是否對應一種控制信號標識;若是,返回控制信號標識信息給互聯網連接模塊。

相應地,本發(fā)明還提供一種基于深度學習的智慧視聽設備多業(yè)務控制系統(tǒng),所述系統(tǒng)包括:麥克風陣列、語音預處理模塊、遠程GPU服務器、互聯網連接模塊、控制信號解析模塊、控制信號輸出模塊;其中,

麥克風陣列以特定頻率監(jiān)聽采集用戶發(fā)出的語音控制信號;

語音預處理模塊對語音控制信號進行提取,獲得MFCC原始語音特征信息;檢測MFCC原始語音特征的對數能量是否大于閾值;若是,則由互聯網連接模塊發(fā)送MFCC原始語音特征信息到遠程GPU服務器;

遠程GPU服務器接收到MFCC原始語音特征信息,根據MFCC原始語音特征信息獲得深度語音特征信息,并將深度特征信息對應的控制信號標識信息發(fā)送給互聯網連接模塊;

互聯網連接模塊將控制信號標識信息傳遞給控制信號解析模塊,由控制信號解析模塊根據控制信號標識信息生成控制信號編碼,選擇對應的控制信號輸出模塊,將控制信號編碼傳遞給該控制信號輸出模塊;

控制信號輸出模塊根據控制信號編碼發(fā)送控制信號給智慧視聽設備。

優(yōu)選地,所述語音預處理模塊包括:

分割單元,用于對語音控制信號進行端點檢測及分割處理;

降噪單元,用于對分割處理后的語音控制信號進行降噪處理;

提取單元,用于對降噪處理后的語音控制信號進行MFCC原始語音特征提取,獲得MFCC原始語音特征信息。

優(yōu)選地,所述遠程GPU服務器接收到MFCC原始語音特征信息,啟動深度學習語音識別程序,采用biLSTM算法對MFCC原始語音特征信息進行深度語音特征提取,獲得深度語音特征信息。

優(yōu)選地,遠程GPU服務器接收到MFCC原始語音特征信息,對MFCC原始語音特征信息進行深度語音特征提取,獲得深度語音特征信息,并將深度特征信息對應的控制信號標識信息發(fā)送給互聯網連接模塊;

遠程GPU服務器對深度語音特征信息進行分類,得到該深度語音特征信息對應的類別,并檢測該類別是否對應一種控制信號標識;若是,返回控制信號標識信息給互聯網連接模塊。

實施本發(fā)明實施例,可使用自然語音控制多種基于不同控制協議、實現多種不同業(yè)務的智慧視聽設備,為智慧視聽設備提供一種統(tǒng)一、自然、高效、低成本的人機交互方式;同時將復雜的深度學習任務部署在遠程服務器上,降低了用戶的硬件和能源成本,為用戶提供高性能、低成本的智慧視聽設備語音控制指令識別服務,提高智慧視聽設備語音控制指令的識別準確率。

附圖說明

為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。

圖1是本發(fā)明實施例的基于深度學習的智慧視聽設備多業(yè)務控制方法的流程示意圖;

圖2是本發(fā)明實施例中深度學習語音識別模型的示意圖;

圖3是本發(fā)明實施例的基于深度學習的智慧視聽設備多業(yè)務控制及系統(tǒng)的結構組成示意圖。

具體實施方式

下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

圖1是本發(fā)明實施例的基于深度學習的智慧視聽設備多業(yè)務控制方法的流程示意圖,如圖1所示,該方法包括:

S1,麥克風陣列以特定頻率監(jiān)聽采集用戶發(fā)出的語音控制信號;

S2,語音預處理模塊對語音控制信號進行提取,獲得MFCC原始語音特征信息;檢測MFCC原始語音特征的對數能量是否大于閾值;若是,則由互聯網連接模塊發(fā)送MFCC原始語音特征信息到遠程GPU服務器;若否,則返回S1;

S3,遠程GPU服務器接收到MFCC原始語音特征信息,根據MFCC原始語音特征信息獲得深度語音特征信息,并將深度特征信息對應的控制信號標識信息發(fā)送給互聯網連接模塊;

S4,互聯網連接模塊將控制信號標識信息傳遞給控制信號解析模塊,由控制信號解析模塊根據控制信號標識信息生成控制信號編碼,選擇對應的控制信號輸出模塊,將控制信號編碼傳遞給該控制信號輸出模塊;

S5,控制信號輸出模塊根據控制信號編碼發(fā)送控制信號給智慧視聽設備。

在語音預處理模塊對語音控制信號進行提取,獲得MFCC原始語音特征信息的過程中,包括:

對語音控制信號進行端點檢測及分割處理;

對分割處理后的語音控制信號進行降噪處理;

對降噪處理后的語音控制信號進行MFCC原始語音特征提取,獲得MFCC原始語音特征信息。

具體地,在S3中,遠程GPU服務器接收到MFCC原始語音特征信息,啟動深度學習語音識別程序,采用biLSTM算法對MFCC原始語音特征信息進行深度語音特征提取,獲得深度語音特征信息。

進一步地,遠程GPU服務器接收到MFCC原始語音特征信息,對MFCC原始語音特征信息進行深度語音特征提取,獲得深度語音特征信息,并將深度特征信息對應的控制信號標識信息發(fā)送給互聯網連接模塊;

遠程GPU服務器對深度語音特征信息進行分類,得到該深度語音特征信息對應的類別,并檢測該類別是否對應一種控制信號標識;若是,返回控制信號標識信息給互聯網連接模塊;若否,則返回錯誤標識給互聯網連接模塊。

在本發(fā)明實施例中,如圖2所示,深度學習語音識別模型的主體結構包括由一個正向長短時記憶循環(huán)神經網絡和一個反向長短時記憶循環(huán)神經網絡組成的biLSTM、一個Softmax分類器。該深度學習語音識別模型的輸入發(fā)送自本地互聯網連接單元MFCC語音特征,其輸出是T+1個類別標識符。這些類別標識符包括T個與本系統(tǒng)支持的控制信號一一對應的類別,以及一個Default類別。如果模型輸出Default類別,說明該MFCC語音特征無法對應一種對智慧視聽設備的控制信號。深度學習語音識別模型由其訓練生成階段預先產生,而后被部署與遠程GPU服務器上為用戶提供智慧視聽設備語音控制指令識別服務。

在具體實施中,深度學習語音識別模型的訓練生成過程如下:

第一步:根據所需支持的智慧視聽設備種類和這些設備實現的業(yè)務功能,模擬真實的設備使用情境,使用麥克風陣列收集大量語音片段;

第二步:人工標注這些語音片段對應的控制信號類別;

第三步:使用語音預處理模塊對所有語音片段提取MFCC語音特征,得到已標記控制語音特征數據集;

第四步:數據集劃分,取上述已標記控制語音特征數據集中一定量的數據組成訓練數據集,即Training Set,一定量的數據作為驗證數據集,即Validation Set;

第五步:隨機初始化深度學習語音識別模型中的所有參數;

第六步:以訓練數據集為輸入,執(zhí)行深度學習正向傳播過程;

第七步:采用時間反向傳播(Back Propagation Through Time,BPTT)方法執(zhí)行深度學習反向傳播過程,更新深度學習語音模型中的所有參數;

第八步:若執(zhí)行周期到達驗證周期,則使用驗證數據集驗證當前的深度學習語音識別模型;

第九步:若達到訓練的停止條件則停止訓練,否則返回第六步。該停止條件可以是訓練次數達到一定值,或驗證誤差小于一定值。

相應地,本發(fā)明實施例還提供一種基于深度學習的智慧視聽設備多業(yè)務控制系統(tǒng),如圖3所示,該系統(tǒng)包括:麥克風陣列1、語音預處理模塊2、遠程GPU服務器3、互聯網連接模塊4、控制信號解析模塊5、控制信號輸出模塊6;其中,

麥克風陣列1以特定頻率監(jiān)聽采集用戶發(fā)出的語音控制信號;

語音預處理模塊2對語音控制信號進行提取,獲得MFCC原始語音特征信息;檢測MFCC原始語音特征的對數能量是否大于閾值;若是,則由互聯網連接模塊4發(fā)送MFCC原始語音特征信息到遠程GPU服務器3;

遠程GPU服務器3接收到MFCC原始語音特征信息,根據MFCC原始語音特征信息獲得深度語音特征信息,并將深度特征信息對應的控制信號標識信息發(fā)送給互聯網連接模塊4;

互聯網連接模塊4將控制信號標識信息傳遞給控制信號解析模塊5,由控制信號解析模塊5根據控制信號標識信息生成控制信號編碼,選擇對應的控制信號輸出模塊6,將控制信號編碼傳遞給該控制信號輸出模塊6;

控制信號輸出模塊6根據控制信號編碼發(fā)送控制信號給智慧視聽設備。

在本發(fā)明實施例中,麥克風陣列1實時采集用戶發(fā)出的語音信號,并將語音信號發(fā)送給語音預處理模塊2。

語音預處理模塊2負責對語音信號進行端點檢測、降噪處理、以及MFCC原始語音特征提取操作。

互聯網連接模塊4負責與遠程GPU服務器3建立網絡連接、發(fā)送MFCC原始語音特征信息到遠程GPU服務器3、接收來自遠程GPU服務器3的反饋消息。

控制信號解析模塊5負責解析來自遠程GPU服務器3的反饋消息,根據消息內容啟用對應的控制信號輸出模塊6,或進行錯誤處理。

控制信號輸出模塊6有多個,每個控制信號輸出單元安裝了支持一種無線通信方式的硬件,負責控制基于該無線通信方式的所有智慧視聽設備。這些無線通信方式包括紅外、藍牙、Z-wave等。

遠程GPU服務器3為用戶提供智慧視聽設備語音控制指令識別服務。

進一步地,語音預處理模塊2包括:

分割單元,用于對語音控制信號進行端點檢測及分割處理;

降噪單元,用于對分割處理后的語音控制信號進行降噪處理;

提取單元,用于對降噪處理后的語音控制信號進行MFCC原始語音特征提取,獲得MFCC原始語音特征信息。

遠程GPU服務器3接收到MFCC原始語音特征信息,啟動深度學習語音識別程序,采用biLSTM算法對MFCC原始語音特征信息進行深度語音特征提取,獲得深度語音特征信息。

遠程GPU服務器3接收到MFCC原始語音特征信息,對MFCC原始語音特征信息進行深度語音特征提取,獲得深度語音特征信息,并將深度特征信息對應的控制信號標識信息發(fā)送給互聯網連接模塊4;

遠程GPU服務器3對深度語音特征信息進行分類,得到該深度語音特征信息對應的類別,并檢測該類別是否對應一種控制信號標識;若是,返回控制信號標識信息給互聯網連接模塊4。

具體地,本發(fā)明實施例的系統(tǒng)相關功能模塊的工作原理可參見方法實施例的相關描述,這里不再贅述。

實施本發(fā)明實施例,可使用自然語音控制多種基于不同控制協議、實現多種不同業(yè)務的智慧視聽設備,為智慧視聽設備提供一種統(tǒng)一、自然、高效、低成本的人機交互方式;同時將復雜的深度學習任務部署在遠程服務器上,降低了用戶的硬件和能源成本,為用戶提供高性能、低成本的智慧視聽設備語音控制指令識別服務,提高智慧視聽設備語音控制指令的識別準確率。

本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關的硬件來完成,該程序可以存儲于一計算機可讀存儲介質中,存儲介質可以包括:只讀存儲器(ROM,Read Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁盤或光盤等。

另外,以上對本發(fā)明實施例所提供的基于深度學習的智慧視聽設備多業(yè)務控制方法及系統(tǒng)進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1