本申請整體涉及處理音頻數(shù)據(jù)。例如,本公開的各方面涉及用于為基于語音的(例如,文本獨立型)用戶認證(也被稱為用戶驗證)提供改進(例如,時延減少)的系統(tǒng)和技術(shù)。
背景技術(shù):
1、電子設(shè)備(例如,移動設(shè)備和其他電子設(shè)備)可通過無線網(wǎng)絡(luò)傳達音頻(例如,言語或語音)和數(shù)據(jù)分組。此類設(shè)備也可經(jīng)由一個或多個應(yīng)用提供附加的功能性,諸如使用數(shù)字靜態(tài)相機捕獲圖像、使用數(shù)字視頻相機捕獲視頻、使用數(shù)字記錄器記錄數(shù)據(jù)(例如,音頻、圖像數(shù)據(jù)、視頻等)、使用音頻播放器輸出音頻(例如,流式傳輸音樂或音樂文件、書籍內(nèi)容等)和/或其他功能性。一些電子設(shè)備可被配置為出于各種目的而處理言語或語音輸入。例如,電子設(shè)備的諸如虛擬數(shù)字助理之類的言語識別應(yīng)用可以將口頭言語命令翻譯成要由設(shè)備的一個或多個其他應(yīng)用(例如,音頻文件播放器等)執(zhí)行的功能或動作。在一些情況下,電子設(shè)備可執(zhí)行用戶認證或驗證以基于語音或言語特性來認證/驗證并標識用戶,以確定用戶是否為設(shè)備的經(jīng)授權(quán)用戶。
2、在一些情況下,當基于語音或言語來執(zhí)行用戶認證/驗證時可能會存在時延問題。例如,當處理具有較長持續(xù)時間的言語時,用戶認證或驗證應(yīng)用可以提供更準確的用戶認證/驗證結(jié)果。然而,當處理較長持續(xù)時間言語時,用戶認證或驗證應(yīng)用可能會經(jīng)歷更多時延。
技術(shù)實現(xiàn)思路
1、在一些示例中,描述了用于使用語音輸入(例如,使用文本獨立型言語分析)來認證電子設(shè)備的用戶的系統(tǒng)和技術(shù)。這些系統(tǒng)和技術(shù)可減少與基于語音輸入的用戶認證相關(guān)聯(lián)的時延。
2、根據(jù)至少一個示例,提供了一種用于處理音頻的方法。該方法包括:使用用戶設(shè)備的音頻傳感器來從用戶獲得第一音頻信息;確定該第一音頻信息是否包括對應(yīng)于所檢測到的關(guān)鍵字的音頻,所檢測到的關(guān)鍵字將該用戶設(shè)備配置為接收或處理來自該用戶的一個或多個命令;基于包括對應(yīng)于所檢測到的關(guān)鍵字的該音頻的該第一音頻信息,確定對應(yīng)于所檢測到的關(guān)鍵字的該第一音頻信息與經(jīng)認證用戶的模型之間的相似度;以及基于該第一音頻信息與該經(jīng)認證用戶的該模型之間的該相似度與第一閾值的第一比較來確定是否將該用戶認證為該經(jīng)認證用戶。
3、在另一示例中,提供了一種用于處理音頻的裝置,該裝置包括至少一個存儲器和耦合到該至少一個存儲器的至少一個處理器。該至少一個處理器被配置為:使用用戶設(shè)備的音頻傳感器來從用戶獲得第一音頻信息;確定該第一音頻信息是否包括對應(yīng)于所檢測到的關(guān)鍵字的音頻,所檢測到的關(guān)鍵字將該用戶設(shè)備配置為接收或處理來自該用戶的一個或多個命令;基于包括對應(yīng)于所檢測到的關(guān)鍵字的該音頻的該第一音頻信息,確定對應(yīng)于所檢測到的關(guān)鍵字的該第一音頻信息與經(jīng)認證用戶的模型之間的相似度;以及基于該第一音頻信息與該經(jīng)認證用戶的該模型之間的該相似度與第一閾值的第一比較來確定是否將該用戶認證為該經(jīng)認證用戶。
4、在另一示例中,提供了一種在其上存儲有指令的非暫態(tài)計算機可讀介質(zhì),這些指令在由一個或多個處理器執(zhí)行時使該一個或多個處理器:使用用戶設(shè)備的音頻傳感器來從用戶獲得第一音頻信息;確定該第一音頻信息是否包括對應(yīng)于所檢測到的關(guān)鍵字的音頻,所檢測到的關(guān)鍵字將該用戶設(shè)備配置為接收或處理來自該用戶的一個或多個命令;基于包括對應(yīng)于所檢測到的關(guān)鍵字的該音頻的該第一音頻信息,確定對應(yīng)于所檢測到的關(guān)鍵字的該第一音頻信息與經(jīng)認證用戶的模型之間的相似度;以及基于該第一音頻信息與該經(jīng)認證用戶的該模型之間的該相似度與第一閾值的第一比較來確定是否將該用戶認證為該經(jīng)認證用戶。
5、在另一示例中,提供了一種用于處理音頻的裝置。該裝置包括:用于使用用戶設(shè)備的音頻傳感器從用戶獲得第一音頻信息的部件;用于確定該第一音頻信息是否包括對應(yīng)于所檢測到的關(guān)鍵字的音頻的部件,所檢測到的關(guān)鍵字將該用戶設(shè)備配置為接收或處理來自該用戶的一個或多個命令;基于包括對應(yīng)于所檢測到的關(guān)鍵字的該音頻的該第一音頻信息,用于確定對應(yīng)于所檢測到的關(guān)鍵字的該第一音頻信息與經(jīng)認證用戶的模型之間的相似度的部件;和用于基于該第一音頻信息與該經(jīng)認證用戶的該模型之間的該相似度與第一閾值的第一比較來確定是否將該用戶認證為該經(jīng)認證用戶的部件。
6、在一些方面,該裝置是移動設(shè)備、是移動設(shè)備的一部分和/或包括移動設(shè)備(例如,移動電話和/或移動手機和/或所謂的“智能電話”或其他移動設(shè)備)、擴展現(xiàn)實(xr)設(shè)備(例如,虛擬現(xiàn)實(vr)設(shè)備、增強現(xiàn)實(ar)設(shè)備或混合現(xiàn)實(mr)設(shè)備、頭戴式設(shè)備(hmd)設(shè)備、交通工具或交通工具的計算系統(tǒng)、設(shè)備或組件、可穿戴設(shè)備(例如,網(wǎng)絡(luò)連接的手表或其他可穿戴設(shè)備)、無線通信設(shè)備、相機、個人計算機、膝上型計算機、服務(wù)器計算機、另一設(shè)備或它們的組合。在一些方面,該裝置包括用于捕獲一個或多個圖像的一個相機或多個相機。在一些方面,該裝置還包括用于顯示一個或多個圖像、通知和/或其他可顯示數(shù)據(jù)的顯示器。在一些方面,上述裝置可包括一個或多個傳感器(例如,一個或多個慣性測量單元(imu),諸如一個或多個陀螺儀、一個或多個陀螺測試儀、一個或多個加速度計、它們的任何組合和/或其他傳感器)。
7、該
技術(shù)實現(xiàn)要素:
不旨在標識所要求保護的主題的關(guān)鍵或必要特征,其也不旨在單獨用于確定所要求保護的主題的范圍。本主題應(yīng)當參考本專利的整個說明書的合適部分、任何或所有附圖、以及每項權(quán)利要求來理解。
8、前述內(nèi)容以及其他特征和方面將在參照以下說明書、權(quán)利要求書和所附附圖時變得更明顯。
1.一種處理音頻的方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其中所述第二音頻信息包括命令。
4.根據(jù)權(quán)利要求3所述的方法,其中所述命令不包括所述關(guān)鍵字。
5.根據(jù)權(quán)利要求2至4中任一項所述的方法,所述方法還包括:
6.根據(jù)權(quán)利要求5所述的方法,其中至少所述第二音頻信息與所述經(jīng)認證用戶的所述模型之間的所述相似度包括所述經(jīng)認證用戶的所述模型與所述第一音頻信息和所述第二音頻信息的組合之間的相似度。
7.根據(jù)權(quán)利要求5或6中任一項所述的方法,其中所述第一比較和所述第二比較是兩階段文本獨立型用戶驗證過程的一部分。
8.根據(jù)權(quán)利要求2至4中任一項所述的方法,所述方法還包括:
9.根據(jù)權(quán)利要求8所述的方法,所述方法還包括基于定時器來確定所述第二音頻信息包括具有所述最長持續(xù)時間的所述音頻。
10.根據(jù)權(quán)利要求1至9中任一項所述的方法,其中所述經(jīng)認證用戶的所述模型基于包括來自所述經(jīng)認證用戶的所檢測到的關(guān)鍵字的言語。
11.根據(jù)權(quán)利要求1至10中任一項所述的方法,所述方法還包括在所述用戶設(shè)備中接收對應(yīng)于對與所檢測到的關(guān)鍵字相關(guān)聯(lián)的文本的選擇的用戶輸入。
12.一種用于處理音頻的裝置,所述裝置包括:
13.根據(jù)權(quán)利要求12所述的裝置,其中所述至少一個處理器被配置為:
14.根據(jù)權(quán)利要求13所述的裝置,其中所述第二音頻信息包括命令。
15.根據(jù)權(quán)利要求14所述的裝置,其中所述命令不包括所述關(guān)鍵字。
16.根據(jù)權(quán)利要求13至15中任一項所述的裝置,其中所述至少一個處理器被配置為:
17.根據(jù)權(quán)利要求16所述的裝置,其中至少所述第二音頻信息與所述經(jīng)認證用戶的所述模型之間的所述相似度包括所述經(jīng)認證用戶的所述模型與所述第一音頻信息和所述第二音頻信息的組合之間的相似度。
18.根據(jù)權(quán)利要求16或17中任一項所述的裝置,其中所述第一比較和所述第二比較是兩階段文本獨立型用戶驗證過程的一部分。
19.根據(jù)權(quán)利要求13至15中任一項所述的裝置,其中所述至少一個處理器被配置為:
20.根據(jù)權(quán)利要求19所述的裝置,其中所述至少一個處理器被配置為:基于定時器來確定所述第二音頻信息包括具有所述最長持續(xù)時間的所述音頻。
21.根據(jù)權(quán)利要求12至20中任一項所述的裝置,其中所述經(jīng)認證用戶的所述模型基于包括來自所述經(jīng)認證用戶的所檢測到的關(guān)鍵字的言語。
22.根據(jù)權(quán)利要求12至21中任一項所述的裝置,其中所述至少一個處理器被配置為:在所述用戶設(shè)備中接收對應(yīng)于對與所檢測到的關(guān)鍵字相關(guān)聯(lián)的文本的選擇的用戶輸入。
23.根據(jù)權(quán)利要求12至22中任一項所述的裝置,其中所述裝置是所述用戶設(shè)備。
24.一種非暫態(tài)計算機可讀介質(zhì),所述非暫態(tài)計算機可讀介質(zhì)上存儲有指令,所述指令在由一個或多個處理器執(zhí)行時使所述一個或多個處理器進行以下操作:
25.根據(jù)權(quán)利要求24所述的非暫態(tài)計算機可讀介質(zhì),其中所述指令在由所述一個或多個處理器執(zhí)行時使所述一個或多個處理器進行以下操作:
26.根據(jù)權(quán)利要求25所述的非暫態(tài)計算機可讀介質(zhì),其中所述第二音頻信息包括命令。
27.根據(jù)權(quán)利要求26所述的非暫態(tài)計算機可讀介質(zhì),其中所述命令不包括所述關(guān)鍵字。
28.根據(jù)權(quán)利要求25至27中任一項所述的非暫態(tài)計算機可讀介質(zhì),其中所述指令在由所述一個或多個處理器執(zhí)行時使所述一個或多個處理器進行以下操作:
29.根據(jù)權(quán)利要求28所述的非暫態(tài)計算機可讀介質(zhì),其中至少所述第二音頻信息與所述經(jīng)認證用戶的所述模型之間的所述相似度包括所述經(jīng)認證用戶的所述模型與所述第一音頻信息和所述第二音頻信息的組合之間的相似度。
30.根據(jù)權(quán)利要求28或29中任一項所述的非暫態(tài)計算機可讀介質(zhì),其中所述第一比較和所述第二比較是兩階段文本獨立型用戶驗證過程的一部分。