本發(fā)明涉及證券領域,尤其涉及知識圖譜領域,具體是指一種基于大規(guī)模時序圖譜實現(xiàn)投資者關聯(lián)賬戶檢測處理的方法、裝置、處理器及其計算機可讀存儲介質。
背景技術:
1、隨著人工智能和大數(shù)據(jù)技術在證券領域的廣泛應用,交易產(chǎn)品制度和技術創(chuàng)新迅速發(fā)展,投資者的交易行為日趨復雜,市場操縱、內(nèi)幕交易等異常交易行為的隱蔽性不斷增強,新的異常交易行為也層出不窮。尤其是關聯(lián)交易(也稱協(xié)調(diào)交易)對金融市場的完整性構成了嚴重威脅。監(jiān)管機構將關聯(lián)交易視為高度風險行為,因為看似來自獨立交易員的訂單,可能實質上由同一主體或組織操控。這種協(xié)調(diào)交易往往造成價格和交易量的異常波動,進一步引發(fā)金融欺詐行為,例如內(nèi)幕交易、價格操控和欺騙行為。關聯(lián)交易主要表現(xiàn)為多個交易員或組織之間的協(xié)同行為,旨在誤導監(jiān)管者及其他市場參與者。傳統(tǒng)依靠人工經(jīng)驗和規(guī)則的方法,在面對交易大數(shù)據(jù)時暴露出全面性、準確性和時效性方面的不足,已難以滿足新形勢下對異常交易行為識別的需求,亟需提升證券市場監(jiān)管的智能化水平。
2、知識圖譜作為一種結構化的人類知識表達形式,在實現(xiàn)多源異構數(shù)據(jù)的語義互通方面發(fā)揮了重要作用,為數(shù)據(jù)分析等任務提供了有效支撐,近年來已成為學術界和工業(yè)界的研究熱點。當前,大多數(shù)知識圖譜是基于靜態(tài)、非實時數(shù)據(jù)構建的,未充分考慮實體和關系的時間屬性。然而,社交網(wǎng)絡通訊、金融交易和疫情傳播等應用場景的數(shù)據(jù)呈現(xiàn)出實時動態(tài)和復雜的時間特性,如何利用時序數(shù)據(jù)構建并有效建模知識圖譜是一個重要的挑戰(zhàn)。目前,許多研究工作通過引入時間信息豐富知識圖譜的特征,將其擴展為包含時間屬性的四元組形式(頭實體,關系,尾實體,時間),形成了時序知識圖譜(temporal?knowledgegraph),以更好地支持動態(tài)數(shù)據(jù)的知識表示和應用。
3、在金融時序交易知識圖譜的構建中,一方面,基于證券市場中異常交易識別的實時性和復雜性,圖譜需覆蓋與異常識別密切相關的關鍵業(yè)務實體和特征;另一方面,圖數(shù)據(jù)庫需支持億級節(jié)點規(guī)模數(shù)據(jù)的分布式存儲,具備在線水平擴展和縮容能力,在處理超大規(guī)模數(shù)據(jù)時確保查詢延時較低,以滿足高效實時查詢的需求。
4、圖譜數(shù)據(jù)的自監(jiān)督學習是一種無需人工標注標簽,通過圖譜自身結構或屬性信息自動生成監(jiān)督信號,以進行模型訓練的方法。在圖譜數(shù)據(jù)中,自監(jiān)督學習通常利用圖結構特性(如節(jié)點的鄰居關系、連接模式、路徑等)以及節(jié)點或邊的屬性來生成偽標簽,從而構建學習任務。例如,可以通過構造節(jié)點相似度任務、邊預測任務、節(jié)點重構任務等自監(jiān)督目標,引導模型在學習過程中捕獲圖譜中的語義關系和拓撲信息。在實際應用中,圖譜數(shù)據(jù)的自監(jiān)督學習能夠生成高質量的節(jié)點向量或圖譜嵌入表示,這些表示不僅保留了節(jié)點的屬性信息,還包含了復雜的結構關系。相比傳統(tǒng)的監(jiān)督學習,自監(jiān)督學習方法在無標簽或標簽稀缺的情況下表現(xiàn)出更強的泛化能力和數(shù)據(jù)利用效率,已廣泛應用于社交網(wǎng)絡分析、推薦系統(tǒng)、金融風控等領域。
技術實現(xiàn)思路
1、本發(fā)明的目的是克服了上述現(xiàn)有技術的缺點,提供了一種滿足可靠性好、準確度高、適用范圍較為廣泛的基于大規(guī)模時序圖譜實現(xiàn)投資者關聯(lián)賬戶檢測處理的方法、裝置、處理器及其計算機可讀存儲介質。
2、為了實現(xiàn)上述目的,本發(fā)明的基于大規(guī)模時序圖譜實現(xiàn)投資者關聯(lián)賬戶檢測處理的方法、裝置、處理器及其計算機可讀存儲介質如下:
3、該基于大規(guī)模時序圖譜實現(xiàn)投資者關聯(lián)賬戶檢測處理的方法,其主要特點是,所述的方法包括以下步驟:
4、(1)構建大規(guī)模投資者交易行為時序知識圖譜;
5、(2)計算基于基礎信息和交易終端的關聯(lián)賬戶相似度;
6、(3)計算基于時序交互圖嵌入的關聯(lián)賬戶相似度;
7、(4)劃分基于聯(lián)合相似度的關聯(lián)賬戶組。
8、較佳地,所述的大規(guī)模投資者交易行為時序知識圖譜以合適的時間粒度記錄更新投資者與其交易終端之間的關系邊、資金賬號與銀行賬戶之間的資金轉移關系邊以及證券賬戶與股票之間的買賣交易關系數(shù)據(jù)。
9、較佳地,所述的步驟(2)具體為:
10、利用jaccard相似度計算投資賬戶i和投資賬戶j的相似度分數(shù);
11、根據(jù)以下公式計算投資賬戶i和投資賬戶j的相似度分數(shù):
12、
13、其中,表示在某時間段t內(nèi)投資賬戶i在屬性集合ck上的交叉特征集,表示在某時間段t內(nèi)投資賬戶j在屬性集合ck上的交叉特征集。
14、較佳地,所述的步驟(3)具體包括以下步驟:
15、(3.1)按照不同的交易頻率,對投資者交易行為分組;
16、(3.2)模型采用多任務學習策略,聯(lián)合學習重構和對比學習兩種不同視角下的投資者交易行為數(shù)據(jù)信息。
17、較佳地,所述的步驟(3.2)具體包括以下步驟:
18、基于重構的模塊隨機將投資者交易對象信息,即標的節(jié)點進行掩碼處理,并通過基于圖神經(jīng)網(wǎng)絡的自編碼器進行重構,學習圖譜結構的全局信息;
19、基于對比學習的模塊從時序差異對比學習和投資者差異對比學習兩方面學習單個投資者時序關聯(lián)性和不同投資者之間的差異性;在時序差異對比視角下,將兩條交易時間間隔較近的行為數(shù)據(jù)對視為正例對,交易時間間隔較遠的行為數(shù)據(jù)視為負例對;在投資者差異對比視角下,將買賣關聯(lián)標的的兩個投資者交易行為數(shù)據(jù)視為正例對,買賣無關標的的兩個投資者數(shù)據(jù)視為負例對。
20、較佳地,所述的步驟(4)具體包括以下步驟:
21、(4.1)以投資者賬戶為節(jié)點,以投資者賬戶之間的相似度系數(shù)為邊,構建投資者賬戶相似度圖譜;
22、(4.2)基于加權賬戶相似度圖譜,利用多種社區(qū)發(fā)現(xiàn)方法對關聯(lián)交易的賬戶組進行群組劃分。
23、較佳地,所述的步驟(4.1)具體包括以下步驟:
24、(4.1.1)如果交易終端關聯(lián)賬戶相似度或交易模型相似度中的任一相似度達到閾值,則兩個投資者節(jié)點之間連接一條邊;
25、(4.1.2)對基礎信息和交易終端的邊設置高權重,對基于交易行為模式的邊設置低權重。
26、較佳地,所述的步驟(4.2)具體為:
27、采用louvain算法將關系緊密的賬戶劃分為一個群組,得到若干疑似關聯(lián)賬戶組。
28、較佳地,所述的louvain算法具體為:
29、通過最大化模塊度檢測網(wǎng)絡的社區(qū)結構;
30、根據(jù)以下公式計算模塊度:
31、
32、其中,aij表示節(jié)點i和節(jié)點j之間的邊是否存在,其中1表示存在,0表示不存在;ki和kj分別是節(jié)點i和節(jié)點j的加權度數(shù);m是網(wǎng)絡中的總邊數(shù);ci和cj分別表示節(jié)點i和節(jié)點j所在的社區(qū);δ(ci,cj)是kronecker函數(shù),當ci=cj時取值為1,否則為0。
33、該用于實現(xiàn)基于大規(guī)模時序圖譜進行投資者關聯(lián)賬戶檢測處理的裝置,其主要特點是,所述的裝置包括:
34、處理器,被配置成執(zhí)行計算機可執(zhí)行指令;
35、存儲器,存儲一個或多個計算機可執(zhí)行指令,所述的計算機可執(zhí)行指令被所述的處理器執(zhí)行時,實現(xiàn)上述的基于大規(guī)模時序圖譜實現(xiàn)投資者關聯(lián)賬戶檢測處理的方法的各個步驟。
36、該用于實現(xiàn)基于大規(guī)模時序圖譜進行投資者關聯(lián)賬戶檢測處理的處理器,其主要特點是,所述的處理器被配置成執(zhí)行計算機可執(zhí)行指令,所述的計算機可執(zhí)行指令被所述的處理器執(zhí)行時,實現(xiàn)上述的基于大規(guī)模時序圖譜實現(xiàn)投資者關聯(lián)賬戶檢測處理的方法的各個步驟。
37、該計算機可讀存儲介質,其主要特點是,其上存儲有計算機程序,所述的計算機程序可被處理器執(zhí)行以實現(xiàn)上述的基于大規(guī)模時序圖譜實現(xiàn)投資者關聯(lián)賬戶檢測處理的方法的各個步驟。
38、采用了本發(fā)明的基于大規(guī)模時序圖譜實現(xiàn)投資者關聯(lián)賬戶檢測處理的方法、裝置、處理器及其計算機可讀存儲介質,解決了在當前海量交易數(shù)據(jù)下利用傳統(tǒng)人工或靜態(tài)規(guī)則難以捕捉隱藏的投資者關聯(lián)關系的痛點。利用多視角的投資者信息相似度計算,使用基于多任務學習框架學習投資者交易行為模式,增強了該方案對投資者關聯(lián)關系挖掘的可靠性和可解釋性。本發(fā)明提高了投資者關聯(lián)關系挖掘的可靠性,使監(jiān)管人員或金融服務公司能夠及時發(fā)現(xiàn)市場中的投資者異常關聯(lián)關系,維護金融市場交易公平。