本申請涉及語音交互,尤其涉及一種基于聲紋特征和唇同步的貸款者語音交互風控方法及系統(tǒng)。
背景技術(shù):
1、隨著金融科技的發(fā)展,貸款業(yè)務雙錄環(huán)節(jié)(錄音錄像同步記錄)已成為風險控制的重要監(jiān)管手段。然而,相關(guān)技術(shù)中針對借貸客戶身份真實性核驗存在明顯缺陷,其中,傳統(tǒng)聲紋識別技術(shù)易受音頻偽造、語音模仿等對抗手段干擾,難以準確判定應答主體身份;而基于唇動軌跡的檢測方法僅能驗證口型同步性,無法有效識別中介人員通過耳語提示、側(cè)身規(guī)避鏡頭等代答行為。
2、相關(guān)技術(shù)中,在貸款業(yè)務雙錄環(huán)節(jié)中,對借貸客戶身份真實性核驗一般只采用單模態(tài)檢測方案,對刻意規(guī)避手段缺乏多維度交叉驗證能力,導致風控環(huán)節(jié)存在身份冒用、應答代勞等重大業(yè)務風險,影響身份核驗過程的可靠性。
技術(shù)實現(xiàn)思路
1、為解決或部分解決相關(guān)技術(shù)中存在的問題,本申請?zhí)峁┮环N基于聲紋特征和唇同步的貸款者語音交互風控方法及系統(tǒng),能夠?qū)崿F(xiàn)聲紋生物特征識別與唇動同步性分析,進而形成多模態(tài)交叉驗證機制,有效克服傳統(tǒng)單模態(tài)檢測方案的局限性,進而顯著提升金融雙錄環(huán)節(jié)中的風控效果。
2、本申請第一方面提供一種基于聲紋特征和唇同步的貸款者語音交互風控方法,包括:
3、通過采集設備同步采集用戶的語音信號及面部視頻流數(shù)據(jù);
4、對所述語音信號進行語音特征提取,生成包含聲紋生物標識的聲紋特征向量及反映語音規(guī)律的語音時序特征向量;
5、對所述面部視頻流數(shù)據(jù)進行唇部運動特征分析,提取表征唇部動態(tài)變化的唇動軌跡特征向量;
6、將所述聲紋特征向量與預存的基準聲紋數(shù)據(jù)庫進行身份匹配,生成第一匹配度評分;
7、對所述語音時序特征向量以及所述唇動軌跡特征向量進行跨模態(tài)時序?qū)R分析,生成第二匹配度評分;
8、根據(jù)所述第一匹配度評分以及所述第二匹配度評分,生成綜合風控評分結(jié)果。
9、在一些實施方式中,所述對所述語音信號進行語音特征提取,包括:
10、通過深度神經(jīng)網(wǎng)絡對所述語音信號提取表征用戶身份的高維聲紋嵌入向量;
11、采用預設語音特征提取方法將所述語音信號轉(zhuǎn)化為時序特征向量。
12、在一些實施方式中,所述對所述面部視頻流數(shù)據(jù)進行唇部運動特征分析,包括:
13、采用預設視覺特征提取方法從所述面部視頻流數(shù)據(jù)中提取對應人體唇部區(qū)域的唇動運動軌跡,將所述唇動軌跡轉(zhuǎn)化為與所述語音時序特征采樣率一致的時序向量序列。
14、在一些實施方式中,所述對所述語音時序特征向量以及所述唇動軌跡特征向量進行跨模態(tài)時序?qū)R分析,生成第二匹配度評分,包括:
15、通過預設深度學習模型對所述語音時序特征向量以及所述唇動軌跡特征向量進行時序偏差計算,獲取對應語音與唇動軌跡之間的時序偏差值;
16、對比所述時序偏差值與預設偏差閾值,生成第二匹配度評分。
17、在一些實施方式中,所述預設深度學習模型為以下任一種:
18、基于自注意力機制和交叉注意力機制構(gòu)建的多模態(tài)融合網(wǎng)絡,或基于卷積神經(jīng)網(wǎng)絡與長短期記憶網(wǎng)絡構(gòu)成的聯(lián)合學習模型。
19、在一些實施方式中,所述預設深度學習模型采用自監(jiān)督學習方法以及預設對齊損失函數(shù)進行模型訓練;
20、其中,所述預設對齊損失函數(shù)為:
21、
22、
23、其中,ii表示當前模態(tài)第i個特征向量;ti表示另一模態(tài)的第i個特征向量,tj表示另一模態(tài)的所有樣本;為softmax計算;為模態(tài)間對比損失;為各模態(tài)損失之和。
24、在一些實施方式中,在所述根據(jù)所述第一匹配度評分、所述第二匹配度評分以及預設評分閾值,生成綜合風控評分結(jié)果之前,該方法還包括:
25、對所述語音信號進行語義內(nèi)容提取,得到反映語義內(nèi)容的語音文本內(nèi)容;
26、通過預訓練自然語言處理模型解析所述語音文本內(nèi)容,生成第三匹配度評分;
27、所述根據(jù)所述第一匹配度評分、所述第二匹配度評分以及預設評分閾值,生成綜合風控評分結(jié)果,包括:
28、根據(jù)所述第一匹配度評分、所述第二匹配度評分、所述第三匹配度評分以及預設評分置信度,生成綜合風控評分結(jié)果。
29、本申請第二方面提供一種基于聲紋特征和唇同步的貸款者語音交互風控系統(tǒng),包括:
30、數(shù)據(jù)采集模塊,用于通過采集設備同步采集用戶的語音信號及面部視頻流數(shù)據(jù);
31、數(shù)據(jù)預處理模塊,用于對所述語音信號進行語音特征提取,生成包含聲紋生物標識的聲紋特征向量及反映語音規(guī)律的語音時序特征向量;對所述面部視頻流數(shù)據(jù)進行唇部運動特征分析,提取表征唇部動態(tài)變化的唇動軌跡特征向量;
32、數(shù)據(jù)匹配模塊,用于將所述聲紋特征向量與預存的基準聲紋數(shù)據(jù)庫進行身份匹配,生成第一匹配度評分;對所述語音時序特征向量以及所述唇動軌跡特征向量進行跨模態(tài)時序?qū)R分析,生成第二匹配度評分;
33、評分輸出模塊,用于根據(jù)所述第一匹配度評分以及所述第二匹配度評分,生成綜合風控評分結(jié)果。
34、本申請第三方面提供一種電子設備,包括:
35、處理器;以及
36、存儲器,其上存儲有可執(zhí)行代碼,當所述可執(zhí)行代碼被所述處理器執(zhí)行時,使所述處理器執(zhí)行如上所述的方法。
37、本申請第四方面提供一種計算機可讀存儲介質(zhì),其上存儲有可執(zhí)行代碼,當所述可執(zhí)行代碼被電子設備的處理器執(zhí)行時,使所述處理器執(zhí)行如上所述的方法。
38、本申請?zhí)峁┑募夹g(shù)方案可以包括以下有益效果:
39、本申請的技術(shù)方案,通過從采集的語音信號以及面部視頻流數(shù)據(jù)中,提取出聲紋特征向量、語音時序特征向量、唇動軌跡特征向量,利用提取的多模態(tài)數(shù)據(jù),實現(xiàn)聲紋生物特征識別與唇動同步性分析,進而形成多模態(tài)交叉驗證機制,可以進行身份核驗與行為真實性的雙重判定,有效抵御音頻偽造、語音模仿、代答場景等異常行為,有效克服傳統(tǒng)單模態(tài)檢測方案的局限性,進而顯著提升金融雙錄環(huán)節(jié)中的風控效果。
40、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本申請。
1.一種基于聲紋特征和唇同步的貸款者語音交互風控方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述語音信號進行語音特征提取,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述面部視頻流數(shù)據(jù)進行唇部運動特征分析,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述語音時序特征向量以及所述唇動軌跡特征向量進行跨模態(tài)時序?qū)R分析,生成第二匹配度評分,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述預設深度學習模型為以下任一種:
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述預設深度學習模型采用自監(jiān)督學習方法以及預設對齊損失函數(shù)進行模型訓練;
7.根據(jù)權(quán)利要求1至6任一項所述的方法,其特征在于,在所述根據(jù)所述第一匹配度評分、所述第二匹配度評分以及預設評分閾值,生成綜合風控評分結(jié)果之前,該方法還包括:
8.一種基于聲紋特征和唇同步的貸款者語音交互風控系統(tǒng),其特征在于,包括:
9.一種電子設備,其特征在于,包括:
10.一種計算機可讀存儲介質(zhì),其上存儲有可執(zhí)行代碼,其特征在于: