本技術(shù)涉及數(shù)據(jù)分析,尤其涉及一種基于多維數(shù)據(jù)分析的異常行為識別方法及系統(tǒng)。
背景技術(shù):
1、異常行為識別技術(shù)在金融風控、安全監(jiān)管等領(lǐng)域具有重要的應(yīng)用價值。該技術(shù)主要通過對各類數(shù)據(jù)進行分析,識別出偏離正常模式的行為特征,及時發(fā)現(xiàn)潛在風險。
2、目前常見的異常行為識別方法主要基于單一數(shù)據(jù)源或簡單規(guī)則。例如,通過設(shè)定固定的數(shù)值閾值進行判斷,或僅分析結(jié)構(gòu)化的交易數(shù)據(jù)進行模式識別。這些方法較為簡單直接,但分析維度單一,難以滿足復(fù)雜場景下的異常行為識別需求。
3、隨著技術(shù)的發(fā)展,較為先進的異常行為識別技術(shù)采用機器學(xué)習(xí)方法,通過建立行為模型進行異常檢測。該技術(shù)首先收集歷史數(shù)據(jù)建立基準模型,然后將新的行為數(shù)據(jù)與模型進行對比,計算偏離度來判斷是否異常。
4、然而,該技術(shù)仍存在以下問題:首先,對非結(jié)構(gòu)化數(shù)據(jù)的處理能力不足,難以充分利用文本等信息;其次,缺乏對實體間關(guān)聯(lián)關(guān)系的深入分析,容易遺漏基于關(guān)系網(wǎng)絡(luò)的復(fù)雜異常模式;最后,模型評分機制較為僵化,難以根據(jù)不同場景靈活調(diào)整權(quán)重。
技術(shù)實現(xiàn)思路
1、鑒于此,本技術(shù)提供一種基于多維數(shù)據(jù)分析的異常行為識別方法及系統(tǒng),解決了現(xiàn)有技術(shù)中對非結(jié)構(gòu)化數(shù)據(jù)處理能力不足、缺乏實體關(guān)聯(lián)關(guān)系分析以及評分機制僵化的問題。
2、本技術(shù)實施例提供了一種基于多維數(shù)據(jù)分析的異常行為識別方法,包括:
3、通過業(yè)務(wù)系統(tǒng)接口獲取結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)清洗和標準化處理,得到統(tǒng)一格式的數(shù)據(jù)集;
4、接收所述統(tǒng)一格式的數(shù)據(jù)集中的文書類文本,采用自然語言處理技術(shù)對所述文書類文本進行處理,提取實體信息、關(guān)系信息和行為信息,生成結(jié)構(gòu)化特征向量;
5、利用所述統(tǒng)一格式的數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)和所述結(jié)構(gòu)化特征向量,構(gòu)建行為統(tǒng)計特征、時序特征和關(guān)聯(lián)特征,采用基于廣義golub-kahan方法的采樣算法選擇特征組合,構(gòu)造多維特征集;
6、根據(jù)所述多維特征集中的關(guān)聯(lián)數(shù)據(jù),建立實體關(guān)系圖,通過低秩張量和p-aaa算法計算實體間的關(guān)聯(lián)強度,并基于所述關(guān)聯(lián)強度對所述實體關(guān)系圖進行優(yōu)化,建立網(wǎng)絡(luò)結(jié)構(gòu)模型;
7、依據(jù)所述網(wǎng)絡(luò)結(jié)構(gòu)模型和所述多維特征集,設(shè)定特征權(quán)重體系,利用修剪張量結(jié)構(gòu)測量方法計算得到多維異常分數(shù),采用低秩張量恢復(fù)技術(shù)對所述多維異常分數(shù)進行綜合計算,獲得異常評分,并根據(jù)所述異常評分輸出預(yù)警清單。
8、可選地,對所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)清洗和標準化處理,得到統(tǒng)一格式的數(shù)據(jù)集,包括:
9、針對所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù),采用統(tǒng)計方法對數(shù)值型數(shù)據(jù)識別異常值,進行修正,對類別型數(shù)據(jù)進行編碼標準化,對時間類數(shù)據(jù)統(tǒng)一格式,獲得清洗后的數(shù)據(jù);
10、根據(jù)所述清洗后的數(shù)據(jù),統(tǒng)一字段名稱、數(shù)據(jù)類型,以及值域范圍,得到統(tǒng)一格式的數(shù)據(jù)集。
11、針對所述文書類文本,采用條件隨機場模型進行分詞處理,得到詞條序列;
12、針對所述詞條序列,采用命名實體識別技術(shù)識別關(guān)鍵實體,并提取實體間的關(guān)系描述詞,構(gòu)建實體-關(guān)系對;
13、根據(jù)所述實體-關(guān)系對,采用依存句法分析提取目標語法成分,識別行為類型和行為特征,輸出結(jié)構(gòu)化特征向量。
14、可選地,利用所述統(tǒng)一格式的數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)和所述結(jié)構(gòu)化特征向量構(gòu)建行為統(tǒng)計特征的方式,包括:
15、基于所述統(tǒng)一格式的數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)和所述結(jié)構(gòu)化特征向量,統(tǒng)計行為頻次和時間分布,計算行為頻率的目標統(tǒng)計量,形成頻次特征;
16、依據(jù)所述頻次特征,設(shè)置滑動時間窗口,計算不同時間尺度的頻次變化,得到行為統(tǒng)計特征。
17、可選地,利用所述統(tǒng)一格式的數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)和所述結(jié)構(gòu)化特征向量構(gòu)建時序特征的方式,包括:
18、基于所述統(tǒng)一格式的數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)和所述結(jié)構(gòu)化特征向量,通過傅里葉變換檢測行為的周期模式,計算自相關(guān)系數(shù),構(gòu)造周期性指標;
19、針對所述周期性指標,使用移動平均法分析長期趨勢,計算波動率和振幅,輸出時序特征。
20、可選地,利用所述統(tǒng)一格式的數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)和所述結(jié)構(gòu)化特征向量構(gòu)建關(guān)聯(lián)特征的方式,包括:
21、基于所述統(tǒng)一格式的數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)和所述結(jié)構(gòu)化特征向量,統(tǒng)計實體間直接交互的頻次和強度,計算加權(quán)關(guān)聯(lián)系數(shù),得到直接關(guān)聯(lián)度;
22、基于所述直接關(guān)聯(lián)度,構(gòu)建多跳關(guān)系路徑,計算路徑重要性權(quán)重,形成關(guān)聯(lián)特征。
23、可選地,通過低秩張量和p-aaa算法計算實體間的關(guān)聯(lián)強度,包括:
24、運用所述多維特征集中的關(guān)聯(lián)數(shù)據(jù),構(gòu)建多維關(guān)聯(lián)張量,使用tucker分解降低張量維度,得到主要特征信息;
25、根據(jù)所述主要特征信息,通過p-aaa算法構(gòu)建有理函數(shù)逼近,迭代優(yōu)化逼近精度,獲得實體間的關(guān)聯(lián)強度。
26、可選地,所述基于所述關(guān)聯(lián)強度對所述實體關(guān)系圖進行優(yōu)化,包括:
27、依據(jù)所述關(guān)聯(lián)強度,設(shè)定關(guān)聯(lián)強度閾值,刪除低于所述關(guān)聯(lián)強度閾值的邊,構(gòu)造優(yōu)化后的實體關(guān)系圖;
28、利用所述優(yōu)化后的實體關(guān)系圖,識別相似度超過預(yù)設(shè)閾值的節(jié)點并進行節(jié)點合并,更新關(guān)聯(lián)關(guān)系,形成網(wǎng)絡(luò)結(jié)構(gòu)模型。
29、可選地,所述依據(jù)所述網(wǎng)絡(luò)結(jié)構(gòu)模型和所述多維特征集,設(shè)定特征權(quán)重體系,包括:
30、依據(jù)所述網(wǎng)絡(luò)結(jié)構(gòu)模型和所述多維特征集,設(shè)置關(guān)聯(lián)方緊密度權(quán)重值、行為異常度權(quán)重值和時序異常度權(quán)重值,構(gòu)建權(quán)重配置;
31、基于所述權(quán)重配置,對所述關(guān)聯(lián)方緊密度權(quán)重值、所述行為異常度權(quán)重值和所述時序異常度權(quán)重值進行細化,得到特征權(quán)重體系。
32、本技術(shù)實施例還提供了一種基于多維數(shù)據(jù)分析的異常行為識別裝置,包括:
33、數(shù)據(jù)預(yù)處理模塊,用于通過業(yè)務(wù)系統(tǒng)接口獲取結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)清洗和標準化處理,得到統(tǒng)一格式的數(shù)據(jù)集;
34、文本處理模塊,用于接收所述統(tǒng)一格式的數(shù)據(jù)集中的文書類文本,采用自然語言處理技術(shù)對所述文書類文本進行處理,提取實體信息、關(guān)系信息和行為信息,生成結(jié)構(gòu)化特征向量;
35、特征工程模塊,用于利用所述統(tǒng)一格式的數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)和所述結(jié)構(gòu)化特征向量,構(gòu)建行為統(tǒng)計特征、時序特征和關(guān)聯(lián)特征,采用基于廣義golub-kahan方法的采樣算法選擇特征組合,構(gòu)造多維特征集;
36、網(wǎng)絡(luò)構(gòu)建模塊,用于根據(jù)所述多維特征集中的關(guān)聯(lián)數(shù)據(jù),建立實體關(guān)系圖,通過低秩張量和p-aaa算法計算實體間的關(guān)聯(lián)強度,并基于所述關(guān)聯(lián)強度對所述實體關(guān)系圖進行優(yōu)化,建立網(wǎng)絡(luò)結(jié)構(gòu)模型;
37、評分計算模塊,用于依據(jù)所述網(wǎng)絡(luò)結(jié)構(gòu)模型和所述多維特征集,設(shè)定特征權(quán)重體系,利用修剪張量結(jié)構(gòu)測量方法計算得到多維異常分數(shù),采用低秩張量恢復(fù)技術(shù)對所述多維異常分數(shù)進行綜合計算,獲得異常評分,并根據(jù)所述異常評分輸出預(yù)警清單。
38、本技術(shù)具備以下技術(shù)效果:
39、本技術(shù)通過業(yè)務(wù)系統(tǒng)接口獲取結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)清洗和標準化處理,得到統(tǒng)一格式的數(shù)據(jù)集;接收所述統(tǒng)一格式的數(shù)據(jù)集中的文書類文本,采用自然語言處理技術(shù)對所述文書類文本進行處理,提取實體信息、關(guān)系信息和行為信息,生成結(jié)構(gòu)化特征向量;利用所述統(tǒng)一格式的數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)和所述結(jié)構(gòu)化特征向量,構(gòu)建行為統(tǒng)計特征、時序特征和關(guān)聯(lián)特征,采用基于廣義golub-kahan方法的采樣算法選擇特征組合,構(gòu)造多維特征集;根據(jù)所述多維特征集中的關(guān)聯(lián)數(shù)據(jù),建立實體關(guān)系圖,通過低秩張量和p-aaa算法計算實體間的關(guān)聯(lián)強度,并基于所述關(guān)聯(lián)強度對所述實體關(guān)系圖進行優(yōu)化,建立網(wǎng)絡(luò)結(jié)構(gòu)模型;依據(jù)所述網(wǎng)絡(luò)結(jié)構(gòu)模型和所述多維特征集,設(shè)定特征權(quán)重體系,利用修剪張量結(jié)構(gòu)測量方法計算得到多維異常分數(shù),采用低秩張量恢復(fù)技術(shù)對所述多維異常分數(shù)進行綜合計算,獲得異常評分,并根據(jù)所述異常評分輸出預(yù)警清單。
40、其中,通過采用廣義golub-kahan方法進行特征采樣,提高了大規(guī)模分層貝葉斯逆問題的處理效率;結(jié)合低秩張量和p-aaa算法實現(xiàn)多元有理近似,提升了實體關(guān)系網(wǎng)絡(luò)的構(gòu)建精度,引入修剪張量結(jié)構(gòu)測量和高效低秩張量恢復(fù)技術(shù),優(yōu)化了異常行為的評分計算過程;并且,創(chuàng)新地結(jié)合文本解析和關(guān)系網(wǎng)絡(luò)分析,實現(xiàn)了對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理;設(shè)計了靈活的多維度權(quán)重評分機制,提高了異常行為識別的準確性和可解釋性。